Agent Skill 状态机工程:Mode-Step 网格如何拆开工作流边界

复杂 Skill 不能继续堆长 prompt,真正稳定的做法是显式建模状态、边界和检查点。

原文链接AI 小老六

一个 Skill 写到后期,真正拖垮它的往往不是模型能力,而是状态混在一起。入口、执行阶段、校验规则、失败恢复和局部修改全塞进一个长 prompt,短期能跑,长期一定会变成谁都不敢碰的流程泥团。

更稳的做法,是把复杂 Skill 当成一个小型状态机来设计。Mode 决定它处在哪个生命周期,Step 决定它此刻只该做哪一件事。模型不再被要求在一整份长文档里记住所有分支,而是一次只进入一个边界清楚、产物明确、可以验收的小状态。

先识别问题:长 prompt 失控不是文字问题

很多 Skill 一开始都很朴素:读输入、分析、调用脚本、生成结果、做一次校验。第一次上线时,一个 workflow.md 足够清楚。真正的麻烦通常发生在后面:用户要重跑校验、只改某个结论、从中断处恢复,维护者于是不断往同一个文件里加 if createif validateif editif resume

这时继续补一句"不要跳过步骤"或者"验证阶段禁止修改文件",效果很有限。模型看到的仍然是一团混合状态:它同时知道生成链路、验证链路、编辑链路和恢复链路,也就容易在该只读的时候顺手修复,在该局部修改的时候重新生成全文。

长 prompt 失控,本质不是文字太多,而是生命周期、权限和完成条件混在了同一层。

图:长 workflow 中的状态混杂如何导致边界失控。

失控迹象 常见补丁 更底层的原因
模型跳过中间步骤 反复强调"必须逐步执行" 每一步没有独立完成条件,也没有明确的下一跳
Validate 阶段顺手修复 再写一条"只读"规则 验证和编辑共享同一上下文,边界只靠自然语言提醒
中途失败只能从头跑 让模型重新读取全部材料 进度没有外化,产物也没有检查点
文件越写越长 继续追加分支说明 入口路由、执行逻辑、校验门禁被放在同一层

判断一个 Skill 是否需要升级,不看它有多少行 prompt,而看它是否已经拥有多个生命周期。如果同一个入口既要创建、又要校验、还要局部编辑或续跑,那么它已经不是"提示词写得更细"能解决的问题。

Mode-Step 网格:把生命周期和执行步骤分开

Tri-Modal Step File 的核心可以压成一句话:外层按 Mode 分生命周期,内层按 Step 分执行阶段。Agent 先进入某个 Mode,再加载该 Mode 下的当前 Step File。每个文件只承担一段很窄的职责。

换句话说,​Mode 管生命周期,Step 管当前动作 ​。这两个维度拆开以后,生成、校验、编辑、续跑才不会在同一份提示词里互相污染。

图:Mode-Step 网格把生命周期和当前动作拆开,让模型只进入一个窄边界状态。

图:Mode 管生命周期,Step 管当前执行阶段。

Mode 典型目录 适合处理的意图 必须守住的边界
Create steps-c/ 从零读取上下文、分析材料、生成目标产物 可以创建新 artifact,但要按 Step 前进
Validate steps-v/ 对已有产物做重新校验、覆盖率检查、差异核对 默认只读,只输出 PASS / CONCERNS / FAIL
Edit steps-e/ 针对某个章节、规则、finding 做局部修改 先评估影响范围,再做定点替换,避免重生成
Resume 通常不单独成目录 读取 frontmatter、sentinel 或日志,判断从哪里继续 只负责路由,不承担业务执行

这个拆法的好处很实际:新增一次局部编辑能力,不必去改 Create 主链路;补一个重新校验规则,也不会把生成逻辑搅乱。维护者先找 Mode,再找 Step,改动范围通常会小很多。

Step File:给模型一个局部执行契约

Step File 不是把长 prompt 切成几段那么简单。它更像一份小契约,告诉模型:这一步唯一目标是什么,可以看哪些上下文,哪些事情绝对不能做,执行顺序是什么,怎样算完成,完成后去哪里。

图:Step File 像一份局部执行契约,把目标、边界、顺序和验收条件钉住。

图:一个 Step File 应同时约束目标、边界、顺序、验收和下一跳。

一个可维护的 Step File 至少应该写清这些内容:

契约字段 解决的问题 写作要点
STEP GOAL 防止模型在本步做太多事 用一句话说清本步唯一目标
MANDATORY RULES 固定必须遵守的纪律 少而硬,不写泛泛的价值观
CONTEXT BOUNDARIES 防止上下文外溢 明确可读材料、可写文件和禁止动作
MANDATORY SEQUENCE 防止跳步 写成可执行顺序,不写抽象建议
SUCCESS CRITERIA 让步骤可验收 用可判断的完成条件,不用"尽量完善"
NEXT STEP 让状态可转移 成功、失败、需人工介入时分别去哪

目录结构也不需要复杂,关键是让人一眼看出生命周期和步骤边界:

text 复制代码
skills/<your-skill>/
├── SKILL.md
├── workflow.md
├── workflow.yaml
├── steps-c/
│   ├── step-01-gather-inputs.md
│   ├── step-02-analyze.md
│   └── step-03-generate-output.md
├── steps-v/
│   └── step-01-validate.md
├── steps-e/
│   └── step-01-assess-and-edit.md
├── scripts/
├── references/
└── templates/

其中 workflow.md 不应该继续承载业务细节。它只做初始化、参数优先级处理、预检查、模式判断和首步路由。确定性逻辑尽量放进 scripts/,比如解析输入、做 diff、检查格式、统计覆盖率、渲染报告。LLM 更适合做语义理解、归纳和取舍,不适合靠记忆执行一堆机械门禁。

按状态加载:不是少读上下文,而是读对上下文

Step File 经常被误解成"减少上下文"。减少当然有价值,但更关键的是按状态加载上下文。普通渐进式加载是按需读资料,主要缓解 token 压力;Mode-Step 加载是先判断状态,再读取这个状态需要的材料,目标是压住边界漂移。

图:Mode-Step 加载不是少读上下文,而是按状态读取正确上下文。

当 Agent 知道自己处在 Validate / step-02-check,它就不需要同时携带 Create 的生成细则和 Edit 的替换策略。它只需要读校验输入、执行检查、输出结论。边界越窄,模型越不容易"热心过头"。

这种设计还会自然带来检查点。每个 Step 的输出可以写入 artifact frontmatter、状态文件或 sentinel。下一次 Resume 不是让模型猜"我上次做到哪了",而是读取状态记录,再回到对应 Mode 的对应 Step。

图:Step 输出、检查点和 Gate 共同支撑续跑与失败恢复。

什么时候值得上,什么时候别上

这个模式不是默认模板。一次性问答、单脚本调用、输入输出都很单一的小工具,没必要套一层工程结构。越早过度工程化,越容易把简单问题写复杂。

更好的触发信号是:流程已经出现第二个生命周期,或者失败后重跑成本明显变高。比如同一个 Skill 既要生成长期产物,又要允许后续校验和局部修订;或者它需要多人维护,PR 里经常有人看不出到底该改哪段规则。

适合使用 Mode-Step 不适合使用 Mode-Step
同一个 Skill 同时支持生成、校验、编辑、恢复 一次性问答或一次性改写
有 3 个以上连续步骤,且每步有中间产物 两三句话就能说清的小工具
输入来源复杂,需要参数优先级和缺失处理 输入单一、输出单一、失败成本低
流程可能中断,需要从中间继续 没有中间状态,也不沉淀 artifact
多人长期维护,需要明确修改边界 短期实验性 prompt

一个很实用的判断是:如果你已经在 workflow.md 里写了第二条 if mode == ...,就该停一下。继续往下堆分支并不是不行,但那通常意味着你正在用 prompt 模拟一个没有显式建模的状态机。

从旧 Skill 迁移:先切主链路,再隔离校验

迁移不必一步到位。最稳的做法,是先保留原来的用户入口,只把 Create 主链路切成几个 Step。这样用户行为不变,维护者却能立刻获得更短的上下文和更清楚的执行边界。

图:迁移旧 Skill 时,先切主链路,再隔离校验和检查点,风险最低。

迁移阶段 具体做法 为什么这样风险低
切出 steps-c/ 把原有主流程拆成输入收集、分析、生成几个 Step 不改变入口,只降低单步复杂度
增加检查点 给产物写 stepsCompletedchangelog 或 sentinel Resume 有了事实依据,不靠模型记忆
隔离 steps-v/ 把重新校验从 Create 中拿出来 Validate 的只读边界最容易被污染,值得优先隔离
steps-e/ 在真实出现局部返工后再设计编辑路径 Edit 的边界来自实际场景,过早设计容易空泛

从设计顺序看,不要先问"我要建几个 Step 文件"。先问最终产物是什么、哪些错误不能发生、失败时如何发现、哪些逻辑可以脚本化。Step 只是承载这些约束的容器。

落地前的工程检查

写复杂 Skill 前,可以先做一轮很短的设计检查:

  • 最终产物的路径、格式、更新方式是否明确。
  • 用户会触发哪些生命周期,Create / Validate / Edit / Resume 是否需要分开。
  • 上下文来源是否有优先级,显式参数、本地配置、自动探测和询问用户的顺序是否固定。
  • 每个 Step 是否只有一个目标,是否写明本步不能做什么。
  • 失败后能否从某个 Step 恢复,而不是从头重跑。
  • 解析、格式校验、覆盖率、diff、渲染这些确定性工作,是否已经尽量下沉到脚本。
  • Validate 是否只读,Edit 是否局部,Create 是否不会偷偷承担校验修复职责。
  • 每个 Step 末尾是否有明确的下一跳或完成标记。

最小可行改造其实不重:一个入口 workflow.md,一条 steps-c/ 主链路,再加一条只读的 steps-v/ 校验链路,通常就能明显减少跳步、越界和失败后重跑的问题。Resume 和 Edit 可以等真实返工场景出现后再补,不必一开始就把所有未来情况设计完。

结语:别让模型猜状态

Prompt 思维经常问:"我还要告诉模型什么?"Workflow 思维会先问:"模型此刻处在哪个状态,它能读什么,不能做什么,完成后转移到哪里?"

这两个问题不是同一层级。复杂 Skill 的稳定性,来自状态显式化、边界契约化、检查点外化和门禁脚本化。长 prompt 能把规则写进去,但很难保证模型在正确的时间只使用正确的那一部分。Mode-Step 网格的价值,就在于把这些隐含状态拆开,让模型不用每次都重新猜。

推荐阅读

业务 Agent 搭建指南:别急着重造 Agent,用知识、工具与评测跑通闭环

Dynamic Workflows 深度解析:Claude Code 为什么把多 Agent 编排写进可执行代码

AI Coding 如何影响交付链路重构:写代码更快了,为什么人反而觉得更累了?

平台智能化到了分水岭:为什么配置代码化才是 AI Coding 的下一代接口

做 Agent,先把 Prompt Cache 当成系统架构来设计!