我也是【艺术家】啦,如何拥有专属 IP

我用 Codex 给自己的文章做了一个专属配图 IP
最近我做了一个小项目:给自己的文章创建一个专属配图 Skill。
它听起来像是一个很小的自动化工具:读一篇文章,然后帮我生成几张配图。但真正做下来之后,我发现它解决的不是“图片不够好看”的问题,而是另一个更长期的问题:
一个持续写作的人,能不能拥有一套稳定的视觉语言?
现在用 AI 生成图片已经很容易了。写一句 prompt,几秒钟就能得到一张看起来不错的图。但如果你经常写文章,就会发现另一个麻烦:每一张图都像是来自不同世界。
这一篇是写实科技插画,下一篇是赛博朋克海报,再下一篇又变成日系动漫。单张图看可能都不错,但放在一起没有连续性,也很难形成个人识别。
所以我这次想做的,不是再生成一张更漂亮的封面图,而是给自己的写作世界放进一个稳定角色。
它不是写真头像,也不是复刻照片,而是一个可以长期出现在文章里的卡通分身:一个有点安静、喜欢观察、经常拿着手机或电脑、背着橙红色背包的旅行工程师。
配图不只是装饰,它是文章的一部分

过去我对文章配图的要求其实很简单:不要太丑,能表达一点主题,最好有点科技感。
但写得越多,越能感觉到这套标准不够用了。
尤其是技术文章,很多时候真正难表达的不是氛围,而是结构。比如一篇文章在讲 AI Infra,读者最需要的可能不是一个炫酷机器人,而是一张能看懂模型、工具、数据、权限、评测、日志之间关系的图。
再比如一篇文章在讲 RAG 和 grep 的区别,好的配图不应该只是“数据库 + 放大镜”,而应该让人一眼看到两种检索方式的思维差异:一个是在语义空间里找相似,一个是在字符世界里做精确匹配。
也就是说,技术文章里的图,首先应该是解释工具,其次才是视觉装饰。
这也是我想做这个 Skill 的原因。
我不希望它拿到文章之后直接生成图片,而是先理解文章结构,再判断这篇文章到底需要什么类型的图:流程图、架构图、对比图、关系图,还是一张带隐喻的概念插图。
这个判断比出图本身更重要。
因为一篇文章真正需要的,往往不是“更好看的图”,而是“更合适的图”。
为什么要有一个固定角色

一开始,我只是想做一套文章配图系统。后来才意识到,如果每篇文章都只是独立生成配图,还是很难建立连续性。
于是问题变成了:能不能让这些图里出现一个稳定的“我”?
这里的“我”不是现实照片里的我,而是文章视角里的我。
它可以站在系统边界旁边观察,可以在复杂架构之间穿行,可以拿着剪刀修剪过度膨胀的流程,也可以背着包穿越一张技术地图。
它不是为了刷存在感,而是让文章有一个固定观察者。
这件事的价值在于,长期来看,读者不只是记住某篇文章,也会逐渐记住一套视觉语言。
就像一个专栏有自己的语气、标题风格和选题方向,它也可以有自己的角色、颜色和图像结构。
对我来说,这个角色承担的是一个非常具体的功能:把抽象观点变成可感知的画面锚点。
技术文章很容易写得像系统说明书,个人文章又很容易变成空泛情绪。一个稳定角色刚好可以在中间搭一座桥:既能进入工程系统,也能保留人的视角。
我是怎么生成这个角色的

这个角色不是一开始就成型的。
最初我整理了一批自己的照片,让 Codex 帮我提取稳定特征。最后留下来的核心元素大概有几个:
乱翘、有体积感的黑色头发;大黑框眼镜;深色衣服;橙红色背包;经常拿着手机、相机或电脑;气质上更像安静的观察者,而不是表演型角色。
第一版生成出来偏半写实青年插画,看起来还可以,但问题也很明显:它像“某张图里的男生”,不像一个可以长期复用的 IP。
这其实是很多 AI 角色生成都会遇到的问题。
如果太追求像真人,模型每次都会在五官、发型、脸型、光影上做很多细节变化。它可能某一张很像,但很难在十张、二十张图里保持一致。
后来我重新调整方向,不再追求写实,而是把重点放在卡通化、符号化、低细节。
也就是把“像我”这件事,拆成几个稳定的视觉锚点:
乱发、大眼镜、黑衣服、橙红背包、安静观察者。
这些元素比真实五官更容易被模型记住,也更适合长期复用。
于是角色慢慢变成了现在这个样子:圆润身体、粗黑线条、奶油色背景、简单色块、大眼镜和乱发作为识别锚点,橙红背包作为视觉记忆点。
我后来给它起了一个内部描述:圆润版旅行工程师。

这个变化对我启发很大。
我最开始以为重点是“让角色像我”。但做着做着发现,更重要的是让它变成一个稳定的视觉符号。
照片里的真实特征太多,不可能每次都完整保留。真正适合被长期复用的,是那些可以被压缩成图形语言的东西。
它不是照片里的我,但它适合作为文章里的“我”。
这个 Skill 到底怎么工作

我给这个配图 Skill 设定了一个原则:默认不直接生成图片。
这听起来有点反直觉。既然是配图 Skill,为什么不直接出图?
原因很简单:直接出图很容易把问题做浅。
如果模型只看到“帮我生成一张文章配图”,它通常会优先生成一张氛围图。但文章真正需要的,可能是一张关系图、一张流程图,甚至是一张帮助读者理解观点转折的概念图。
所以这个 Skill 的第一步不是画图,而是读文章。
它会先输出一份文章地图:这篇文章在讲什么,核心概念是什么,冲突在哪里,转折在哪里,最值得被读者记住的点是什么。
然后它再判断哪里需要配图。
不是每一段都需要图。图太多会打断阅读,图太少又会让复杂内容缺少抓手。它会优先选择那些适合解释结构、对比观点、总结方法或制造记忆点的位置。
接下来才是图像类型判断。
如果是一篇技术文章,它会优先考虑流程图、架构图、模块关系图、对比图。因为这些图能提高理解效率。
如果是一篇偏个人表达的文章,它才会更多使用概念插图,比如一个人在系统迷宫里寻找路径,或者一个小角色坐在信息瀑布旁边整理线索。
再往后,它会为每张图生成构思卡。
构思卡里包括:这张图要表达什么主题,角色在画面中做什么,画面里有哪些视觉隐喻,结构怎么安排,读者看完应该理解什么。
只有构思通过之后,它才会生成最终 prompt,交给图像模型去出图。
这套流程看起来更慢,但它避免了一个很常见的问题:图很好看,但和文章没关系。
从生成图片,到建立系统

这个项目最有意思的地方,是它慢慢从一个“生成图片工具”,变成了一个“小型视觉系统”。
一套真正可复用的视觉系统,至少要回答几个问题:
什么样的角色是固定的?
什么样的颜色可以长期出现?
技术图和情绪图如何保持同一种语言?
什么时候角色应该出现,什么时候不应该出现?
一张图是为了解释、对比、总结,还是制造记忆?
生成结果好不好,应该用什么标准判断?
这些问题比 prompt 本身更重要。
因为 prompt 只是一次生成的指令,而系统决定的是长期一致性。
如果没有系统,每次生成都像重新抽卡。今天抽到一张不错的,明天可能就变了风格。最后文章里堆满了好看的图,但它们彼此之间没有关系。
有了系统之后,AI 生成图片就不再只是“创作一张图”,而是“在一套规则里扩展表达”。
这也是我越来越觉得 AI 工具应该被这样使用:不是每次都从零开始请求一个结果,而是把自己的偏好、判断标准、风格约束和工作流程沉淀下来。
真正有价值的不是某一次生成,而是下一次、下下次都能稳定复用。
技术文章尤其需要这种配图方式

对技术写作者来说,配图一直是一个很尴尬的环节。
完全不配图,文章容易显得干。随便配几张科技感插图,又容易变成装饰。真要画架构图、流程图、对比图,又很耗时间。
但技术文章里的好图,价值非常高。
一张清晰的图,能让读者少读几百字解释。它可以把概念之间的关系、系统里的调用链路、不同方案的取舍,一次性摆在读者眼前。
这也是我希望这个 Skill 重点支持的方向:让技术图更像真正可读的解释图,而不是用来填充版面的插画。
比如写 Agent,不只是画一个机器人,而是画出任务拆解、工具调用、记忆、权限、评测、日志、回退之间的关系。
写 AI Infra,不只是画一堆模块,而是画出从业务场景到模型能力之间,工程系统到底承担了哪些稳定性工作。
写前端工程师在 AI 时代的变化,也不只是画一个程序员坐在电脑前,而是画出他的工作重心如何从写重复代码,转向组件抽象、上下文组织、结果审查和自动化验证。
这类图的核心不是美术能力,而是理解能力。
AI 生成图片已经解决了“能不能画”的问题。接下来更重要的是:它知不知道为什么要这样画。
这个项目也改变了我对个人 IP 的理解

以前提到个人 IP,我很容易想到头像、昵称、口号、风格化照片。
但这次做完之后,我对它的理解变得更具体了。
个人 IP 不一定是一个夸张的人设,也不一定要把自己变成一个品牌。它也可以是一套稳定的表达习惯。
你长期关注什么问题,如何解释复杂概念,喜欢用什么隐喻,面对技术变化时的判断方式是什么,这些东西加在一起,才构成了一个更真实的个人识别。
视觉角色只是它的外壳。
真正重要的是,这个角色能不能承载你的观察方式。
所以我不希望这个卡通分身只是站在画面里摆姿势。它应该参与文章表达:观察系统、连接模块、记录线索、调试流程、穿过边界、修剪复杂性。
它越是能承担这些动作,就越不像一个装饰物,而像一个专栏里的长期角色。
这也是我接下来想继续做的方向。
我想为不同文章类型做更多示例图,让技术图更清楚,也让角色动作更丰富。比如观察、连接、修剪、调试、记录、穿越系统边界。
这些动作本质上也对应着我写文章时经常做的事情:看见问题、拆开结构、找到关系、判断取舍,再把它讲得更容易理解。
参考提示词
我想复刻并个性化一个类似 gainubi/article-metaphor-illustrator 的文章配图 Skill。
参考仓库:
https://github.com/gainubi/article-metaphor-illustrator
请先理解这个参考仓库的核心思路:
- 它不是简单生成好看的插图
- 它会先理解文章结构,再判断适合什么类型的图
- 它用一个固定角色作为长期视觉锚点
- 它把文章内容转译成流程图、架构图、对比图、关系图、结构图或概念隐喻图
- 它强调图像要服务文章理解,而不是只做装饰
我想在这个思路上,做一个属于我自己的版本。
请不要直接生成一张随机好看的图,而是帮我建立一套稳定的个人文章配图系统,并基于这套系统生成文章配图。
我的目标是:
- 复刻参考仓库的工作流和配图逻辑
- 替换成我自己的固定角色和视觉语言
- 为我的博客/公众号/技术文章建立统一视觉识别
- 创建一个不是写真头像、不是复刻照片、而是可长期复用的卡通分身
- 让这个角色能出现在技术图、概念图、流程图、架构图和个人表达类插图中
- 每次出图都保持角色一致、风格一致、配图逻辑一致
请按以下步骤完成:
1. 先对齐参考仓库的方法
请总结参考仓库的:
- Skill 结构
- 配图工作流
- 角色系统
- 图像类型判断方式
- Prompt 组织方式
- 它如何避免只生成“好看的废图”
2. 分析我的参考照片或自我描述,提取稳定视觉特征
只提取可长期复用的图形锚点,不追求真人五官复刻。
例如:发型、眼镜、衣服颜色、常用物品、姿态、气质、职业感、生活场景。
3. 把这些特征压缩成一个卡通 IP 角色
要求:
- 卡通化、符号化、低细节
- 不是写实肖像
- 不是普通动漫人物
- 有稳定识别点
- 适合反复出现在文章配图里
- 能在小尺寸下被认出来
4. 为这个角色生成一套角色设定
包括:
- 核心识别特征
- 默认服装
- 常用道具
- 常见动作
- 可出现的文章场景
- 禁止漂移的方向
- 角色什么时候应该出现,什么时候不应该出现
5. 基于我的文章内容,先判断文章需要什么类型的图
不要默认生成氛围插图。请先判断最适合的是:
- 流程图
- 架构图
- 对比图
- 关系图
- 结构图
- 概念隐喻图
6. 为每张图生成构思卡
每张图都要说明:
- 这张图不是在画什么
- 它真正想帮助读者理解什么
- 文章里的具体来源细节是什么
- 角色在图里做什么
- 画面结构是什么
- 读者第一眼、三秒后、最后应该理解什么
7. 最后再生成图片 Prompt
Prompt 要保证:
- 角色一致
- 风格一致
- 画面服务文章,不只是装饰
- 尽量少用文字,避免模型写错字
- 适合 16:9 横版文章配图
我希望整体风格是:
- 参考 gainubi/article-metaphor-illustrator 的文章隐喻插图感
- 温暖、简洁、卡通化
- 粗黑手绘线条
- 奶油色或浅色背景
- 简单色块
- 有一点手工质感
- 不写实、不赛博朋克、不随机换风格
- 技术内容优先清晰表达结构
- 个人内容可以保留情绪和观察感
请最终输出:
1. 参考仓库方法拆解
2. 我的个人卡通 IP 角色设定
3. 角色主视觉 Prompt
4. 角色设定板 Prompt
5. 当前文章的配图点建议
6. 每张图的构思卡
7. 每张图可直接用于图像模型的最终 Prompt
结尾:不是一张头像,而是一个写作系统的入口

这次做的不是一张头像。
它更像是给自己的写作世界,放进了一个小小的观察者。
表面上看,我是在用 Codex 和图像模型做文章配图。但更深一层看,我是在把自己的写作偏好、视觉审美、技术表达方式和长期风格,慢慢沉淀成一套可以复用的系统。
这可能也是 AI 工具最值得认真使用的地方。
不是让它每次帮你随机生成一个结果,而是让它参与建立你的方法、规则和资产。
当每一次生成都能留下可复用的东西,AI 才不只是效率工具,而会变成个人创作系统的一部分。
强大的模型会越来越多,但真正能拉开差距的,可能不是谁更会写一句 prompt,而是谁更早开始把自己的判断沉淀成系统。
这套专属配图 IP 对我来说,就是这个系统里的第一个角色。
它背着一个橙红色的小包,站在文章里,替我观察那些复杂但有趣的东西。
更多推荐


所有评论(0)