真授之以渔：我是怎么从"想给文章配几张图"，一步步做出一个可发布 skill 的

前言：本来想发下一篇，结果先把"配图判断"做成了一个 skill

大家好呀，我又回归掘金了（没法，前端可能快失业了，先找回状态，懂的都懂 ^_^）

这段时间给自己做了一点小调整：少焦虑，多沉淀。AI 来得很快，我并不排斥------它确实帮我补上了不少短板，也把很多又碎又慢的事情提速了。

⏱️ 预计阅读时间：12 分钟

📖 读这篇，你可以了解到什么

#	你会了解到	对应章节
1	为什么"配图决策"比"生图工具"更重要	一、二、三
2	一个 skill 是怎么从真实卡点里长出来的	四
3	6+1 配图分类法：每种图该在什么时候用	五
4	一张可以直接复用的文章配图执行表	六
5	封面题图的 brief 怎么写，才不会出"AI 科幻海报"	七
6	从"用工具"到"定义工具"，这一步怎么迈	八、九

本来准备先发另一篇：《我把 OpenAI 官方三篇 Codex 指南读完了，整理成这一篇》。结果写着写着，被一个看似很小的问题卡住了：

这篇文章到底该怎么配图？

是配 3 张还是 5 张？哪些地方需要截图？哪些地方更适合画结构图？哪些地方其实根本不该有图？题图该怎么做，才既有主题感，又不至于太跑偏？

与其空谈，不如先把这个问题走一遍。既然下一篇就真实需要一套配图方案，那不如索性把这个过程沉淀成一个可复用的 skill。

于是，这篇文章就诞生了。你看到这篇的配图也是我用该 skill 生成的------这就是最好的证明不是？

先给大家看看效果：

仓库已经放到 GitHub 了：Fridolph/article-visual-planning

还在完善中，需要自提或者提issue ~

一、起因很简单：我只是想给文章配几张图

事情一开始真的非常朴素------给 Codex 长文做一张封面图，再配上几张正文插图，整体观感更完整，读起来也更轻松。

所以我最初的需求，大概就是：

1 张封面图
几张正文配图

看起来很简单，对吧？

但只要真的开始做，就会发现问题根本不是"有没有图"，而是图到底该怎么存在。

到底配几张才合适？
哪些段落值得配图，哪些其实不需要？
每张图承担的是解释作用、证据作用，还是只是辅助节奏？
哪些内容适合 AI 直接生成？哪些内容反而必须自己截图？

我中间试过几个现成的 skill，也跑出过一些结果。但慢慢发现，那些结果的问题不在于"完全没用"，而在于它们更偏向"帮你往前生成"，却没有先帮你把判断做扎实。

换句话说，它们很容易回答：可以配什么图。

但我真正需要的是：这段到底要不要配图？如果要，这张图最应该承担什么作用？

这两者看起来只差一点点，实际差很多------前者偏执行，后者偏决策。

二、痛点不在没图，而在乱配图

这次写到一半时，最大的感受非常简单：

不是文章没图很难受，而是图配错了更难受。

很多时候我们会天然觉得"有图总比没图好"。尤其在 AI 把生图门槛降得这么低的情况下，最容易出现的幻觉就是：反正出图已经不贵了，那就多来几张。（就像买了个无限子弹的枪，结果把自己脚打了）

但真正把图放进文章里之后你会发现，事情完全不是这样。

这次在整理 Codex 那篇长文时，我就很明显地遇到了几类完全不同的情况：

位置	最适合的图类型	原因
`Plan 模式`	真实截图	很多读者没见过这个界面，解释再多不如一眼看到
`AGENTS.md`	真实截图	概念抽象，一张文件截图理解门槛直接降下来
`Skills + Shell + Compaction`	结构图	重点是三者关系，不是某个界面
`/review`	真实截图 + 轻标注	需要证明"真的能用"，抽象图没有说服力
文章头图	封面题图	承担传播入口职责，不能混进正文插图逻辑

也就是说，文章配图这件事，根本不是"帮我多出几张图"，而是先判断：这里值不值得配图、这张图是拿来解释还是证明、该由 AI 生成还是作者亲自处理。

当这些问题想清楚之后，后面的 prompt、生图、截图，反而变成了相对容易的一步。

三、我想要的不是生图器，而是一个"配图决策辅助"

我真正想做的，并不是一个"给文章生成配图"的 skill。

如果只是生成图片，那其实已经有很多工具在做了。它们不是没用，只是它们默认把问题理解成了"怎么出图更快"。

可我这次碰到的问题，核心根本不在"出图快不快"。核心在于：这篇文章，哪些地方真的值得可视化？这些可视化承担的到底是解释功能、证据功能，还是传播功能？

如果这一步判断错了，后面 prompt 写得再漂亮，图出得再快，也只是把错误更高效地放大。

所以我后来给这个 skill 的定位，就定成了一句话：

它不是一个"直接帮你生成图片"的 skill，而是一个"文章配图决策辅助"的 skill。

它首先做的不是"产图"，而是"判断"------

这段到底要不要配图？
如果要配，这张图最主要的任务是什么？
更适合结构图、图表、抽象辅助图，还是真实截图？
应该由 AI 直接生成，还是应该由作者自己截图处理？
如果只是为了"看起来丰富一点"，那这张图是不是其实可以不要？

这一点让我第一次更明确地感受到：

AI 时代里，很多场景真正稀缺的，不是执行能力，而是前面的判断能力。执行越来越便宜，判断反而越来越值钱。

四、这个 skill 是怎么长出来的

这个 skill 不是我坐下来规划好的，它更像是在解决真实问题的过程中，一点点长出来的。

Step 1：把模糊需求压成一句清晰的问题

最开始的原始需求非常散：给文章做几张图、题图好看一点、正文别太干......

这种说法放在脑子里没问题，真要交给 AI，就会很容易跑偏。

所以我做的第一件事，不是写 skill，而是先把问题压缩成一句更清楚的话：

这篇文章，哪里该配图，配什么图，怎么最稳地把图做出来？

这句话里已经隐含了 3 层判断，而且这 3 层是有顺序的------如果第一层没判断好，后面两层做得越努力，偏差反而越大。

Step 2：从真实文章里把规则归纳出来

问题说清楚之后，不是空想，而是回到那篇正在写的 Codex 长文里，一段一段去看。

也就是在这个过程中，一些比较稳定的判断开始浮现出来了（就是上面那张表）。

好的 skill 不是靠脑补设计出来的，而是从真实工作流里长出来的。

Step 3：把这些规则写进 `SKILL.md`

当规则开始变清楚之后，才轮到真正写 skill。

这里最大的感受是：SKILL.md 最重要的，不是写得多，而是写得准。

尤其是 name 和 description，它们几乎决定了这个 skill 会不会被正确理解、会不会在对的时候触发。

所以我没有把它写成一种"很会生成图"的描述，而是写成一种"先判断，再建议"的描述。

对应到 agents/openai.yaml，配置长这样：

allow_implicit_invocation: true 这一行挺关键的------它让 agent 在你粘贴文章草稿时，能自动判断"这个时候应该调用配图规划 skill"，而不是每次都要手动触发。

Step 4：整理成可复用的仓库结构

如果只是自己本地临时用一下，写完 SKILL.md 也差不多能用了。但我后面还是把它整理成了更完整的仓库结构，补了双语 README、examples、references------因为一旦准备公开，你就必须把那些原本只存在于自己脑子里的默契，转成别人也能读懂的东西。

从那一刻开始，你不再只是"用工具的人"，而是在慢慢变成"定义工具的人"。（这个感觉，有点像从看番到自己写同人文的那种转变 🤣）

五、我给它总结出了一套 6+1 配图分类法

当我把前面的真实判断整理出来之后，后面最自然的一步，就是给这些判断起名字。

这次总结出来的，是一套 6+1 配图分类法。

之所以说是 6+1，是因为我把**"不要配图"也单独算成了一类**------真正成熟的配图建议，不是"尽量给你多配几张图"，而是能明确告诉你：这里不用图，反而更好。

好的建议应该包含克制。

对应到 references/illustration-taxonomy.md 里的判断逻辑：

文章信号	最适合的图类型	原因
多步骤工作流	结构解释型（Diagram-first）	顺序比文字更清晰
工具对比	结构解释型 / 数据图表型	矩阵或评分卡更好扫读
抽象概念 / 思维转变	抽象辅助型（Generative）	辅助氛围，不需要当证据
真实产品演示	真实截图型	真实感比精致感更重要
截图存在但焦点不清	截图增强型	引导读者看到重点
数据 / 排名 / 前后对比	数据图表型	读者需要结构化证据
文章头图 / 分发卡片	封面题图型	主要任务是发现和定调
短小具体的段落	不配图型	加图只会增加噪音

0. 不配图型

这段文字本身已经足够清楚、主要承担过渡作用、加图只会打断节奏------那就不加。

如果一个 skill 永远都在建议"这里也可以加一张图"，那它大概率还不够成熟。

1. 结构解释型

最适合交给 AI 助手直接生成的一类。

适用场景：流程讲解、架构关系、步骤拆解、多概念之间的联系。

常见形式：流程图、思维导图、时间线、Mermaid 图。

比如 Skills + Shell + Compaction 这一段，讲的是三者如何协同工作，用 Mermaid 直接画出来：

对应的 diagram brief 模板：

yaml 复制代码

Diagram type: flowchart LR
Core message: Skills 负责保存可复用流程，Shell 负责执行，Compaction 负责控制长任务上下文
Required nodes: Skills、Shell、Compaction、Long-running workflow
Avoid: 过多分支、复杂嵌套

2. 数据图表型

有些内容不是"讲关系"，而是在讲数字、变化和对比。

更适合的方式：柱状图、折线图、对比表卡片、指标信息图。

3. 抽象辅助型

不承担证据职责，用来帮章节转场、给抽象概念一点视觉锚点、缓解长文纯文字的疲劳感。

这类图更适合"AI 帮你组织表达"，而不是"AI 直接决定最终长什么样"。

对应的 prompt 模板：

css 复制代码

Create an editorial illustration for a Chinese tech article about {topic}.
Show {scene or metaphor}. Style: {style}. Mood: {mood}.
Composition: {composition}. Color direction: {palette}.
Keep it clean, readable, and suitable for a blog article.
Do not include UI chrome, brand logos, or dense text.

4. 真实截图型

这是我这次最明显感受到价值的一类。

很多内容一旦涉及"真实界面""真实文件""真实工作流"，截图的说服力会远远高于一张生成图。

这里最重要的一点不是"图好不好看"，而是**"它是不是真的"**。

对应的截图 brief 模板：

yaml 复制代码

Capture target:    # 截什么
Navigation path:   # 怎么到达
Required state:    # 需要处于什么状态
Crop focus:        # 裁切重点
What to redact:    # 需要打码的内容
What to annotate:  # 需要标注的内容
Fallback:          # 如果截不到，备选方案

5. 截图增强型

截图有时候虽然对了，但还不够------真实截图往往信息量很大，读者未必一眼就知道重点在哪里。

这时候需要最小量增强：箭头、框选、局部放大、编号步骤。

对应的增强 brief 模板：

yaml 复制代码

Base screenshot:        # 基础截图
Main focal point:       # 主要焦点
Annotation style:       # 标注风格
Need arrow or box:      # 是否需要箭头/框选
Need numbered steps:    # 是否需要编号步骤
Need crop or zoom:      # 是否需要裁切/放大
What to keep hidden:    # 需要隐藏的内容

6. 封面题图型

题图和正文插图，真的不是同一套判断逻辑。

正文里的图，大多服务于理解；题图更偏向于：吸引点击、建立主题气质、帮读者快速识别这篇文章在讲什么。

所以题图最好单独判断，不要混进正文插图那条线上。

对应的封面 brief 模板：

yaml 复制代码

Article topic:              # 文章主题
Target audience:            # 目标读者
Visual metaphor:            # 视觉隐喻
Mood:                       # 氛围
Composition:                # 构图
Safe area for title text:   # 标题安全区
Color direction:            # 色彩方向
Avoid:                      # 需要避免的元素

六、拿真实文章跑一遍，结果比我预想中更有用

真正让我觉得这个 skill 开始有价值，是因为我很快就拿那篇正在写的 Codex 长文，实打实跑了一遍。

这一轮验证最直接的产物，就是那张"文章配图执行表"：

#	位置	目标	图类型	生产方式	优先级	可选
1	Plan 模式	降低陌生感	真实截图型	手动截图	🔴 高	否
2	AGENTS.md	降低抽象度	真实截图型	手动截图	🔴 高	否
3	Skills + Shell + Compaction	解释三者关系	结构解释型	AI 生成 Mermaid	🔴 高	否
4	`/review` 代码审查	增强可信度	真实截图 + 增强型	手动截图 + 标注	🟡 中	是
5	运维 / MCP 日志	把抽象流程具象化	真实截图型	手动截图	🟡 中	是
6	文章头图	建立主题识别	封面题图型	外部生图	🟡 中	是

它真正有价值的地方，不在于表本身，而在于它帮我把很多本来模糊的判断，一次性收紧了------哪几张图是高优先级、哪些图必须我亲自处理、哪些图完全可以交给 AI。

它终于帮我把"哪些该做、哪些别做"判断清楚了。

内容创作里最消耗人的，很多时候不是执行，而是反复犹豫。这个 skill 真正帮到我的地方，就是把这种犹豫往前压缩了一层。

还有一个很现实的好处：它让我第一次比较自然地接受了"有些地方就是不该配图"。

一张真正解释问题的图，胜过三张只是为了"显得丰富"的图。

七、最先落地的成果：它真的帮我做出了封面图

最先让我看到具体成果的，其实是题图。

在这个前提下，skill 给出的不是一张现成图，而是一段更适合用来出图的提示词：

yaml 复制代码

Article topic: 三篇官方 Codex 指南的实战化整理
Target audience: 工程师与技术创作者
Visual metaphor: AI 队友协作桌面，或有组织的工程工作流
Mood: 能干、清晰、现代，不要科幻感过重
Composition: 预留标题安全区，避免元素过多，主体明确
Color direction: 冷静的蓝色 / 中性色科技风
Avoid: 机器人拟人、霓虹赛博、假代码大段文字、杂乱拼贴

顺带一提，这里也想小小推荐一下 Coze。对我这种以前连一张图都懒得折腾的人来说，它现在的体验已经非常够用了：个人版9.9便宜、上手快、轻量需求基本够用，不需要为了做一张封面图就把流程搞得特别重。（不是广告，我真没收钱 😂）

我后来把这个 brief 拿去跑了一版图，结果比我预想中顺手------技术内容感是对的，工程协作感是对的，整体调性比较克制，不会太花。

这张图不是凭空"灵光一闪"跑出来的，而是先经过了一层更靠前的判断：这是一张题图，它服务的不是正文解释，而是主题识别和传播入口。

当这个判断成立之后，后面的 prompt 才不容易飘。但我最想强调的还是：

真正帮到我的，不是"某个平台能出图"，而是我终于先把"这张图该长成什么方向"说清楚了。

八、我顺手把它整理成了一个可发布的 skill

当这个 skill 在真实文章上跑出第一轮结果之后，我很快就把它整理成了一个更标准的 skill 包，发到了 GitHub：

Fridolph/article-visual-planning

感兴趣的可以直接去看，里面有 SKILL.md、双语 README、examples 和 references，结构比较完整，应该能直接拿去用。

当你开始补 examples/ 和 README 的时候，你脑子里想的已经不是"我自己怎么用"，而是"别人拿到它能不能也看懂"。

从那一刻开始，你不再只是"用工具的人"，而是在慢慢变成"定义工具的人"。

九、这次最大的感受：AI 时代最值钱的，不只是会用，而是会沉淀

如果要给这次经历做一个总结，我最想记下来的，不是"我又做了一个 skill"，而是我对 AI 协作这件事的理解，又往前走了一点。

真正有复利的，往往不是"这次结果还不错"，而是你有没有把这次结果背后的过程，整理成一个以后还能继续复用的东西。

真正值钱的，不只是会"用"，而是会"沉淀"。

提示词 vs skill：不是同一个层级的事情

提示词更像一次性的交流------很灵活，也很轻便，但很多经验会随着这次对话结束而散掉。

skill 就不太一样了。当你开始写一个 skill 的时候，你其实是在逼自己回答一些更本质的问题：

这个任务真正要解决的是什么？
它什么时候应该被触发？
它最容易跑偏的地方在哪里？
它输出什么样的结果，才算真的有帮助？

提示词更像即时反应，skill 更像长期资产。

虽然这只是一个图片选择的 skill 但思想通用，代码、写作、视频剪辑等可运用，这才是 skill 的价值。

从"要结果"到"先判断"

这次配图 skill 最让我受用的一点，就是它把我的注意力，从"赶紧出几张图"拉回到了"先判断该不该出图"。

AI 越强，我们越容易直接冲向结果。但很多时候，真正决定质量的，并不是执行这一步，而是更前面的判断这一步。

这件事几乎可以外延到很多 AI 协作场景里：

写代码前，先判断应该改哪里
做重构前，先判断边界在哪里
写文档前，先判断读者真正关心什么
做图前，先判断视觉承担的任务是什么

AI 越强，前面的判断力越不能丢。判断力，会越来越成为"人真正该负责的部分"。

从"调用别人的方法"到"定义自己的工作流"

会用别人的工具，当然已经很好了；但一旦你开始把自己的工作流也沉淀出来，你和 AI 的关系就会发生变化。

这很可能就是 AI 时代一个非常重要的分界线：

有的人停留在"我会用很多工具"
有的人会继续往前走，开始把自己的方法也做成工具

前者已经能提效，后者则更容易建立起真正属于自己的生产力系统。

十、后续计划

这件事还没有结束。

继续拿不同文章类型去跑：目前跑通的是偏 AI 工具方法论的长文，接下来想试试技术教程、项目复盘、产品说明。只有在不同类型的内容里都保持稳定，才能说它是一套真正可复用的方法。
继续压缩输出，让建议更轻：skill 很容易越写越丰富，但输出一旦太重，作者的决策成本反而会上升。我更希望它像一个熟悉内容创作的搭档：该提醒的提醒，该收束的收束。
继续整理发布，看看它能不能真正走出去：我还挺好奇：如果它真的公开出去，别人会不会在我没想到的场景里，也跑出一些新的经验？
下一篇，回到那篇本来要发的 Codex 长文：绕了一圈，坑还是要填的。

只是现在回头看，我反而觉得先写这一篇挺值的------如果没有这次中途停下来，把"配图判断"这件事单独拎出来，我可能还是会像以前一样，边写边犹豫、边配图边试错。

而现在，至少我已经先给自己写好了一个能反复使用的辅助工具。

我本来只是想给下一篇文章配几张图，结果最先写完的，是这个 skill。

现在回头看，这部分反而比"图本身"更值得记下来。

顺便问一句：大家是讨厌 AI 生成的内容，还是讨厌低质量的内容？

欢迎留言聊聊，或者来 GitHub 看看，有踩坑经历的也可以一起交流呀 ^_^ 🔥

真授之以渔：我是怎么从"想给文章配几张图"，一步步做出一个可发布 skill 的

前言：本来想发下一篇，结果先把"配图判断"做成了一个 skill

📖 读这篇，你可以了解到什么

一、起因很简单：我只是想给文章配几张图

二、痛点不在没图，而在乱配图

三、我想要的不是生图器，而是一个"配图决策辅助"

四、这个 skill 是怎么长出来的

Step 1：把模糊需求压成一句清晰的问题

Step 2：从真实文章里把规则归纳出来

Step 3：把这些规则写进 SKILL.md

Step 4：整理成可复用的仓库结构

五、我给它总结出了一套 6+1 配图分类法

0. 不配图型

1. 结构解释型

2. 数据图表型

3. 抽象辅助型

4. 真实截图型

5. 截图增强型

6. 封面题图型

六、拿真实文章跑一遍，结果比我预想中更有用

七、最先落地的成果：它真的帮我做出了封面图

八、我顺手把它整理成了一个可发布的 skill

九、这次最大的感受：AI 时代最值钱的，不只是会用，而是会沉淀

提示词 vs skill：不是同一个层级的事情

从"要结果"到"先判断"

从"调用别人的方法"到"定义自己的工作流"

十、后续计划

Step 3：把这些规则写进 `SKILL.md`