我也是【艺术家】啦，如何拥有专属 IP

LaughingZhu

308人浏览 · 2026-07-03 12:05:33

LaughingZhu · 2026-07-03 12:05:33 发布

我用 Codex 给自己的文章做了一个专属配图 IP

最近我做了一个小项目：给自己的文章创建一个专属配图 Skill。

它听起来像是一个很小的自动化工具：读一篇文章，然后帮我生成几张配图。但真正做下来之后，我发现它解决的不是“图片不够好看”的问题，而是另一个更长期的问题：

一个持续写作的人，能不能拥有一套稳定的视觉语言？

现在用 AI 生成图片已经很容易了。写一句 prompt，几秒钟就能得到一张看起来不错的图。但如果你经常写文章，就会发现另一个麻烦：每一张图都像是来自不同世界。

这一篇是写实科技插画，下一篇是赛博朋克海报，再下一篇又变成日系动漫。单张图看可能都不错，但放在一起没有连续性，也很难形成个人识别。

所以我这次想做的，不是再生成一张更漂亮的封面图，而是给自己的写作世界放进一个稳定角色。

它不是写真头像，也不是复刻照片，而是一个可以长期出现在文章里的卡通分身：一个有点安静、喜欢观察、经常拿着手机或电脑、背着橙红色背包的旅行工程师。

配图不只是装饰，它是文章的一部分

过去我对文章配图的要求其实很简单：不要太丑，能表达一点主题，最好有点科技感。

但写得越多，越能感觉到这套标准不够用了。

尤其是技术文章，很多时候真正难表达的不是氛围，而是结构。比如一篇文章在讲 AI Infra，读者最需要的可能不是一个炫酷机器人，而是一张能看懂模型、工具、数据、权限、评测、日志之间关系的图。

再比如一篇文章在讲 RAG 和 grep 的区别，好的配图不应该只是“数据库 + 放大镜”，而应该让人一眼看到两种检索方式的思维差异：一个是在语义空间里找相似，一个是在字符世界里做精确匹配。

也就是说，技术文章里的图，首先应该是解释工具，其次才是视觉装饰。

这也是我想做这个 Skill 的原因。

我不希望它拿到文章之后直接生成图片，而是先理解文章结构，再判断这篇文章到底需要什么类型的图：流程图、架构图、对比图、关系图，还是一张带隐喻的概念插图。

这个判断比出图本身更重要。

因为一篇文章真正需要的，往往不是“更好看的图”，而是“更合适的图”。

为什么要有一个固定角色

一开始，我只是想做一套文章配图系统。后来才意识到，如果每篇文章都只是独立生成配图，还是很难建立连续性。

于是问题变成了：能不能让这些图里出现一个稳定的“我”？

这里的“我”不是现实照片里的我，而是文章视角里的我。

它可以站在系统边界旁边观察，可以在复杂架构之间穿行，可以拿着剪刀修剪过度膨胀的流程，也可以背着包穿越一张技术地图。

它不是为了刷存在感，而是让文章有一个固定观察者。

这件事的价值在于，长期来看，读者不只是记住某篇文章，也会逐渐记住一套视觉语言。

就像一个专栏有自己的语气、标题风格和选题方向，它也可以有自己的角色、颜色和图像结构。

对我来说，这个角色承担的是一个非常具体的功能：把抽象观点变成可感知的画面锚点。

技术文章很容易写得像系统说明书，个人文章又很容易变成空泛情绪。一个稳定角色刚好可以在中间搭一座桥：既能进入工程系统，也能保留人的视角。

我是怎么生成这个角色的

这个角色不是一开始就成型的。

最初我整理了一批自己的照片，让 Codex 帮我提取稳定特征。最后留下来的核心元素大概有几个：

乱翘、有体积感的黑色头发；大黑框眼镜；深色衣服；橙红色背包；经常拿着手机、相机或电脑；气质上更像安静的观察者，而不是表演型角色。

第一版生成出来偏半写实青年插画，看起来还可以，但问题也很明显：它像“某张图里的男生”，不像一个可以长期复用的 IP。

这其实是很多 AI 角色生成都会遇到的问题。

如果太追求像真人，模型每次都会在五官、发型、脸型、光影上做很多细节变化。它可能某一张很像，但很难在十张、二十张图里保持一致。

后来我重新调整方向，不再追求写实，而是把重点放在卡通化、符号化、低细节。

也就是把“像我”这件事，拆成几个稳定的视觉锚点：

乱发、大眼镜、黑衣服、橙红背包、安静观察者。

这些元素比真实五官更容易被模型记住，也更适合长期复用。

于是角色慢慢变成了现在这个样子：圆润身体、粗黑线条、奶油色背景、简单色块、大眼镜和乱发作为识别锚点，橙红背包作为视觉记忆点。

我后来给它起了一个内部描述：圆润版旅行工程师。

角色设定板

这个变化对我启发很大。

我最开始以为重点是“让角色像我”。但做着做着发现，更重要的是让它变成一个稳定的视觉符号。

照片里的真实特征太多，不可能每次都完整保留。真正适合被长期复用的，是那些可以被压缩成图形语言的东西。

它不是照片里的我，但它适合作为文章里的“我”。

这个 Skill 到底怎么工作

我给这个配图 Skill 设定了一个原则：默认不直接生成图片。

这听起来有点反直觉。既然是配图 Skill，为什么不直接出图？

原因很简单：直接出图很容易把问题做浅。

如果模型只看到“帮我生成一张文章配图”，它通常会优先生成一张氛围图。但文章真正需要的，可能是一张关系图、一张流程图，甚至是一张帮助读者理解观点转折的概念图。

所以这个 Skill 的第一步不是画图，而是读文章。

它会先输出一份文章地图：这篇文章在讲什么，核心概念是什么，冲突在哪里，转折在哪里，最值得被读者记住的点是什么。

然后它再判断哪里需要配图。

不是每一段都需要图。图太多会打断阅读，图太少又会让复杂内容缺少抓手。它会优先选择那些适合解释结构、对比观点、总结方法或制造记忆点的位置。

接下来才是图像类型判断。

如果是一篇技术文章，它会优先考虑流程图、架构图、模块关系图、对比图。因为这些图能提高理解效率。

如果是一篇偏个人表达的文章，它才会更多使用概念插图，比如一个人在系统迷宫里寻找路径，或者一个小角色坐在信息瀑布旁边整理线索。

再往后，它会为每张图生成构思卡。

构思卡里包括：这张图要表达什么主题，角色在画面中做什么，画面里有哪些视觉隐喻，结构怎么安排，读者看完应该理解什么。

只有构思通过之后，它才会生成最终 prompt，交给图像模型去出图。

这套流程看起来更慢，但它避免了一个很常见的问题：图很好看，但和文章没关系。

从生成图片，到建立系统

这个项目最有意思的地方，是它慢慢从一个“生成图片工具”，变成了一个“小型视觉系统”。

一套真正可复用的视觉系统，至少要回答几个问题：

什么样的角色是固定的？
什么样的颜色可以长期出现？
技术图和情绪图如何保持同一种语言？
什么时候角色应该出现，什么时候不应该出现？
一张图是为了解释、对比、总结，还是制造记忆？
生成结果好不好，应该用什么标准判断？

这些问题比 prompt 本身更重要。

因为 prompt 只是一次生成的指令，而系统决定的是长期一致性。

如果没有系统，每次生成都像重新抽卡。今天抽到一张不错的，明天可能就变了风格。最后文章里堆满了好看的图，但它们彼此之间没有关系。

有了系统之后，AI 生成图片就不再只是“创作一张图”，而是“在一套规则里扩展表达”。

这也是我越来越觉得 AI 工具应该被这样使用：不是每次都从零开始请求一个结果，而是把自己的偏好、判断标准、风格约束和工作流程沉淀下来。

真正有价值的不是某一次生成，而是下一次、下下次都能稳定复用。

技术文章尤其需要这种配图方式

对技术写作者来说，配图一直是一个很尴尬的环节。

完全不配图，文章容易显得干。随便配几张科技感插图，又容易变成装饰。真要画架构图、流程图、对比图，又很耗时间。

但技术文章里的好图，价值非常高。

一张清晰的图，能让读者少读几百字解释。它可以把概念之间的关系、系统里的调用链路、不同方案的取舍，一次性摆在读者眼前。

这也是我希望这个 Skill 重点支持的方向：让技术图更像真正可读的解释图，而不是用来填充版面的插画。

比如写 Agent，不只是画一个机器人，而是画出任务拆解、工具调用、记忆、权限、评测、日志、回退之间的关系。

写 AI Infra，不只是画一堆模块，而是画出从业务场景到模型能力之间，工程系统到底承担了哪些稳定性工作。

写前端工程师在 AI 时代的变化，也不只是画一个程序员坐在电脑前，而是画出他的工作重心如何从写重复代码，转向组件抽象、上下文组织、结果审查和自动化验证。

这类图的核心不是美术能力，而是理解能力。

AI 生成图片已经解决了“能不能画”的问题。接下来更重要的是：它知不知道为什么要这样画。

这个项目也改变了我对个人 IP 的理解

以前提到个人 IP，我很容易想到头像、昵称、口号、风格化照片。

但这次做完之后，我对它的理解变得更具体了。

个人 IP 不一定是一个夸张的人设，也不一定要把自己变成一个品牌。它也可以是一套稳定的表达习惯。

你长期关注什么问题，如何解释复杂概念，喜欢用什么隐喻，面对技术变化时的判断方式是什么，这些东西加在一起，才构成了一个更真实的个人识别。

视觉角色只是它的外壳。

真正重要的是，这个角色能不能承载你的观察方式。

所以我不希望这个卡通分身只是站在画面里摆姿势。它应该参与文章表达：观察系统、连接模块、记录线索、调试流程、穿过边界、修剪复杂性。

它越是能承担这些动作，就越不像一个装饰物，而像一个专栏里的长期角色。

这也是我接下来想继续做的方向。

我想为不同文章类型做更多示例图，让技术图更清楚，也让角色动作更丰富。比如观察、连接、修剪、调试、记录、穿越系统边界。

这些动作本质上也对应着我写文章时经常做的事情：看见问题、拆开结构、找到关系、判断取舍，再把它讲得更容易理解。

参考提示词

我想复刻并个性化一个类似 gainubi/article-metaphor-illustrator 的文章配图 Skill。

参考仓库：
https://github.com/gainubi/article-metaphor-illustrator

请先理解这个参考仓库的核心思路：
- 它不是简单生成好看的插图
- 它会先理解文章结构，再判断适合什么类型的图
- 它用一个固定角色作为长期视觉锚点
- 它把文章内容转译成流程图、架构图、对比图、关系图、结构图或概念隐喻图
- 它强调图像要服务文章理解，而不是只做装饰

我想在这个思路上，做一个属于我自己的版本。

请不要直接生成一张随机好看的图，而是帮我建立一套稳定的个人文章配图系统，并基于这套系统生成文章配图。

我的目标是：
- 复刻参考仓库的工作流和配图逻辑
- 替换成我自己的固定角色和视觉语言
- 为我的博客/公众号/技术文章建立统一视觉识别
- 创建一个不是写真头像、不是复刻照片、而是可长期复用的卡通分身
- 让这个角色能出现在技术图、概念图、流程图、架构图和个人表达类插图中
- 每次出图都保持角色一致、风格一致、配图逻辑一致

请按以下步骤完成：

1. 先对齐参考仓库的方法
  请总结参考仓库的：
  - Skill 结构
  - 配图工作流
  - 角色系统
  - 图像类型判断方式
  - Prompt 组织方式
  - 它如何避免只生成“好看的废图”

2. 分析我的参考照片或自我描述，提取稳定视觉特征
  只提取可长期复用的图形锚点，不追求真人五官复刻。
  例如：发型、眼镜、衣服颜色、常用物品、姿态、气质、职业感、生活场景。

3. 把这些特征压缩成一个卡通 IP 角色
  要求：
  - 卡通化、符号化、低细节
  - 不是写实肖像
  - 不是普通动漫人物
  - 有稳定识别点
  - 适合反复出现在文章配图里
  - 能在小尺寸下被认出来

4. 为这个角色生成一套角色设定
  包括：
  - 核心识别特征
  - 默认服装
  - 常用道具
  - 常见动作
  - 可出现的文章场景
  - 禁止漂移的方向
  - 角色什么时候应该出现，什么时候不应该出现

5. 基于我的文章内容，先判断文章需要什么类型的图
  不要默认生成氛围插图。请先判断最适合的是：
  - 流程图
  - 架构图
  - 对比图
  - 关系图
  - 结构图
  - 概念隐喻图

6. 为每张图生成构思卡
  每张图都要说明：
  - 这张图不是在画什么
  - 它真正想帮助读者理解什么
  - 文章里的具体来源细节是什么
  - 角色在图里做什么
  - 画面结构是什么
  - 读者第一眼、三秒后、最后应该理解什么

7. 最后再生成图片 Prompt
  Prompt 要保证：
  - 角色一致
  - 风格一致
  - 画面服务文章，不只是装饰
  - 尽量少用文字，避免模型写错字
  - 适合 16:9 横版文章配图

我希望整体风格是：
- 参考 gainubi/article-metaphor-illustrator 的文章隐喻插图感
- 温暖、简洁、卡通化
- 粗黑手绘线条
- 奶油色或浅色背景
- 简单色块
- 有一点手工质感
- 不写实、不赛博朋克、不随机换风格
- 技术内容优先清晰表达结构
- 个人内容可以保留情绪和观察感

请最终输出：
1. 参考仓库方法拆解
2. 我的个人卡通 IP 角色设定
3. 角色主视觉 Prompt
4. 角色设定板 Prompt
5. 当前文章的配图点建议
6. 每张图的构思卡
7. 每张图可直接用于图像模型的最终 Prompt