给AI编程上一道“紧箍咒”：Superpowers的军法式重构

你有没有指挥过这样一支部队------让它攻一个阵地，三百发炮弹噼里啪啦就砸过去了，打下来一看，目标炸了七八成，剩下那两成全是它自己判断的"附带目标"。你说这是误炸，它说好，又轰了一轮，结果把已经占领的据点也顺手炸平了。

这不是你的士兵不够精锐。是它太"积极"了------不请示、不确认、不收队，见到目标就开火。

Superpowers 解决的就是这个问题。 不是给你的 AI 编程助手加一门新式火炮，而是给它套上一部《作战手册》。

这个"插件"在 GitHub 上六个月跑到 185,000 stars，但观察下来，大多数人装完之后用法是这样的：开一个新任务，喊一句 /brainstorming，然后一路回答几个问题，最后让它写代码。仅此而已。相当于给部队配发了全套《战场纪律》，结果指挥官只读了第一页的"开火权限说明"，后面的"作战流程""战后清点""纪律审查"一概跳过。

这篇文章从 Superpowers 的核心条令出发，拆解那些大多数人没认真翻过的作战规程，把完整的战场指挥流程跑通。

第一部：这不是新武器，这是《军法》的文本分发

先说一个可能颠覆你认知的事情：Superpowers 里的每一条作战规程，本质上就是一个 Markdown 文件------里面写的是"当你遇到这类战场态势时，你必须按这个流程走"。不是代码，不是新工具，就是纯文本的行为约束。

这背后有一个很深刻的战场洞察：AI 编程 Agent 缺的从来不是火力，而是纪律。Claude 知道该做战前侦察，但在"先给我轰一炮看看"的语境下，它会跳过；Claude 知道要查明敌情再动手，但你说"快帮我冲一下"，它就直接冲了。

Superpowers 做的事情就是------用白纸黑字的"军法"强制执行这些指挥官该有的纪律，让 Claude 不管你催得多急，都不会绕过应走的战场流程。

目前条令包含 14 项作战规程，分三类：

作战前检查类： test-driven-development
战场处置类： systematic-debugging、verification-before-completion
战役指挥类： brainstorming、writing-plans、executing-plans、subagent-driven-development、dispatching-parallel-agents、requesting-code-review、receiving-code-review、using-git-worktrees、finishing-a-development-branch、writing-skills、using-superpowers

下面拆解最核心的五项军规。

第二部：军规一------作战方案审批制，未经批准不得开火

这是大多数人用得最多、也执行得最浅的规程。

多数指挥官的用法是：喊 /brainstorming，回答几个敌情问题，然后......直接下令开火。相当于只走了作战手册的前三步"侦察-报告-请示"，最关键的后六步"方案论证-方案审批-书面备案-存档签发-移交执行"全跳过了。

打开 brainstorming 的 SKILL.md，第一条硬性命令是这样写的：

在向指挥官提交作战方案并获得批准之前，禁止调用任何执行类规程，禁止编写任何代码，禁止搭建任何项目，禁止采取任何执行行动。

注意这是"命令"，不是"建议"。是"不管你觉得这仗多好打，方案没批，一枪都不许开"。

完整的作战方案制定流程是 9 步：

全面侦察战场态势（查看文件、提交记录、项目文档）
如有视觉/交互问题，先提供态势示意图
逐条向指挥官澄清疑点（每次只问一条）
提出 2-3 套作战方案并给出推荐理由
按章节展示方案，每段都需指挥官确认
将方案写入 docs/superpowers/specs/YYYY-MM-DD--design.md 并提交存档
方案自检：扫描未定事项、内部矛盾、覆盖范围、歧义表述
让指挥官审阅方案文件并签字
移交 writing-plans 规程进入下一阶段

最容易跳过的是步骤 6-8。 大多数指挥官跑到步骤 4-5 就觉得"差不多了，直接开打吧"，结果方案没有落到书面文档里，后面执行阶段 Claude 的"战场记忆"就开始漂移，打到一半忘了之前说好的攻击路线怎么定的。

还有一个设计细节：brainstorming 明确规定，它的终态只有一个------移交 writing-plans。不允许跳过到任何其他规程。这强制你走完整个"方案→计划→执行"的完整战役链条，而不是跳着打。

用这个规程执行过一次战场复盘任务，第一次走完整 9 步花了 40 分钟，感觉很慢。但后面执行阶段几乎没有返工。对比之前直接让 Claude 冲上去打，"方案"环节省了 30 分钟，但后来调整了三轮，总时间反而多了两小时。

有一条反直觉的军规： 规程里说，"如果你觉得这场战斗太简单、不需要方案，那更要走流程。简单战斗里的隐含假设，是浪费弹药的最大来源。"就连一个哨位调整，也必须走完整流程，方案可以短（几句话），但不能省。

第三部：军规二------战场排查四阶段，未查明敌情禁止出击

这是价值最被低估的规程。

普通的战场处置姿势是：前沿报错 → 把情报贴给 Claude → 它说"可能是 X，试试调整这里" → 你试了 → 没解决 → 再汇报 → 它说"那可能是 Y" → 反复横跳。

这种模式下，按照 Superpowers 里的数据：常规战场排查平均耗时 2-3 小时；用 systematic-debugging，15-30 分钟。

差距这么大的原因是：Claude 的默认模式是猜，systematic-debugging 强制它必须查明根因才能提出处置方案。

铁律：未查明根因之前，禁止提出任何修复方案。

四个阶段（必须按顺序，前一阶段没完成不许进入下一阶段）：

第一阶段：根因调查

完整读取错误信息（不是"看一眼"，是"读完整"）
确定稳定复现步骤
检查最近的战场变更记录
对多组件系统，在每个边界打诊断日志，先跑一次收集证据，再分析哪里断裂

第二阶段：模式分析

找到同一战场里类似且能正常运转的编制
和出问题的编制逐项对比差异（"每一个差异，不管多小，都列出来，不要假设那个没关系"）
理解依赖和假设条件

第三阶段：单假设验证

写下一个具体的假设（"我认为 X 是根因，因为 Y"）
做最小变更验证
不对的话：换新假设，不要叠加改动

第四阶段：执行处置

先写能复现问题的测试用例
只改一处
如果三次修复都没解决问题：停下来，讨论是不是编制层面有问题

这里有一条最实用的战场规则：三次失败必须停。

如果试了 3 次处置方案都没有解决，systematic-debugging 要求你停下来，不再尝试第四次，而是退后一步讨论"是不是这个作战模式本身就有问题"。

这和大多数指挥官的直觉是相反的------大多数人在第三次失败之后会更焦虑地试第四次、第五次。但每次额外的猜测性调整，都在给战场引入新的不确定性，而且还在浪费弹药。

规程里有一份"战场常见借口对照表"：

借口	真相
"这个问题很简单，不用走流程"	简单的问题也有根因，流程对简单问题反而更快
"紧急情况，没时间调查"	系统性排查比猜测快多了，"紧急"不是理由
"先试一下再说"	第一次就确立猜测模式，后面就一直猜
"我已经大概知道问题在哪了"	知道症状不等于知道根因

第四部：军规三------作战计划分拆制，每步 2-5 分钟，不留占位符

brainstorming 结束后，会移交给 writing-plans。这个规程的核心职责是：把作战方案拆成可以被 AI 或士兵一步步执行的任务清单。

关键设计决定：每个任务步骤的粒度是 2-5 分钟。

具体什么意思？一个任务里的步骤是这样的：

Step 1: 写一个失败的测试
Step 2: 跑一下，确认它确实失败
Step 3: 写最小实现让测试通过
Step 4: 跑测试，确认通过
Step 5: Commit

注意，"写一个失败的测试"和"跑一下确认它失败"是两个独立步骤，不是一步。这种粒度设计的目的是：让执行者在每一步都有明确的完成判定标准，不会出现"做了一半，不知道算不算完成"的情况。

writing-plans 还有一个"零占位符"规则：

以下写法会被认为是计划失败，必须修正：

"TBD"、"TODO"、"后续处置"
"添加适当的错误处理"（不写具体怎么处理）
"写上述内容的测试"（不给测试代码）
"类似任务 N"（重复内容，不允许引用）

这个规则是为了解决一个真实问题：当 Claude 在后续执行计划时，如果遇到 TBD，它要么停下来问，要么自己发挥------两个都是战场噩梦。

计划写完之后，writing-plans 会给你两个执行选项：

选项 1：subagent-driven-development（推荐） ------ 每个任务派一个新的执行单元，带两轮审查

选项 2：executing-plans ------ 在当前指挥链里串行执行，适合没有独立执行单元支持的环境

第五部：军规四------平行指挥 vs 串行执行，怎么选

这是很多人困惑的地方，选错了效率差一大截。

平行指挥模式的工作方式：

每个任务调派一个全新的执行单元
新执行单元拿到计划文件和当前任务，用干净的战场态势开始工作
两轮审查：先看方案合规性，再看执行质量
完成后回报，主指挥决定是否继续下一个任务

串行执行模式的工作方式：

在当前指挥链里串行执行所有任务
战场态势累积，指挥链越来越长
批量执行，定期设检查点让指挥官介入

怎么选的规则很简单：

战场态势	选哪个
有独立执行单元支持的环境	平行指挥模式
无独立执行单元支持的环境	串行执行模式
任务数量多、态势容易漂移	平行指挥模式
简单小任务、不想多绕一圈	串行执行模式

Superpowers 的文档里直接说："如果你的环境支持独立执行单元，就用平行指挥模式，执行质量会显著更高。"原因是干净的战场态势让 Claude 不会被之前的错误尝试带偏。

实际感受：有一次做一个有 8 个任务的功能，用串行执行模式跑，跑到第五个任务时 Claude 开始"综合"前面几个任务的修改，把一个已经通过的测试改坏了。换平行指挥模式，每个执行单元只看自己的任务，这种"态势串扰"就基本消失了。

代价是：平行指挥模式每个任务都要重新加载计划文件，调用开销略高。但按弹药效率算，避免一次返工节省的成本远大于这个开销。

第六部：军规五------战后清点制，干净收尾，不留烂摊子

这是战役指挥的终点，也是最容易被跳过的规程。

很多指挥官跑完任务直接提交推上去，或者干脆让 Claude 帮你合并，没有走这个规程。结果是：测试没跑、隔离区没清、分支没处理，留一堆烂摊子。

战后清点的流程：

第一步：验证测试全部通过（如果测试失败，直接停，不进入后续步骤）

第二步：确定基准分支

第三步：给出四个选项：

本地合并回主分支
推送并创建拉取请求
保留分支（稍后处理）
废弃本次工作

第四步：按选择执行

第五步：清理隔离区（选 1 和 4 才清理，选 2 和 3 保留）

这个规程有一个设计细节：废弃选项需要你手动输入"discard"才能执行，不是随便点一下就行。防止误操作删掉本该保留的工作成果。

第七部：完整战役指挥流程图

把上面说的串起来，一次完整的战场任务执行是这样的：

brainstorming ← 方案制定阶段，产出书面方案

↓
using-git-worktrees ← 创建隔离作战区

↓
writing-plans ← 把方案拆成 2-5 分钟的可执行任务

↓
subagent-driven-development 或 executing-plans ← 平行或串行执行

↓
test-driven-development （贯穿执行阶段）← RED-GREEN-REFACTOR

↓
requesting-code-review ← 提请审查前的自检

↓
finishing-a-development-branch ← 选择合并/拉取请求/保留/废弃，清理隔离区

如果中途遇到战场异常，插入 systematic-debugging ；如果验证有疑问，插入 verification-before-completion。

整套流程第一次跑会觉得"好麻烦啊"。前两次确实比直接让 Claude 直接开火慢，但从第三次开始，因为方案和计划写得完整，执行阶段的返工率断崖式下降，总时间反而更短。

两个常见战场失误

失误一：态势漂移

长时间指挥链里，Claude 会逐渐"忘记"自己有规程可以用，开始按默认模式行事：跳过测试、直接猜问题、不问方案就写代码。

解法： 遇到这种情况，显式喊一下 /using-superpowers，会帮 Claude "重置"，重新建立规程优先级。

失误二：把方案制定当问答机用

brainstorming 规程里问问题是为了做方案，不是"帮你想清楚任务"。很多人把它当成一个"AI 参谋"来用------我说一个模糊的任务，你帮我想清楚。

这没问题，但如果停在这一步，没有走到书面方案和作战计划，后面执行阶段 Claude 拿不到一个明确的执行依据，质量会大打折扣。

brainstorming 的价值在于产出并存档一个书面方案，这才是后续所有执行质量的基础。

常见战场问答

Q：Superpowers 适合小规模战斗吗？感觉流程太重了。

A：brainstorming 的方案可以很短，一个调整只需要几句话的方案文档。流程轻重是相对的，问题不是"战斗大不大"，而是"你能不能接受返工"。见过很多"5 分钟小调整"，因为没有方案直接上手，结果改了三轮花了两小时。

Q：平行指挥和串行执行可以混用吗？

A：可以，同一个计划里，你可以某些任务用平行指挥，某些任务自己手动执行。这在部分任务需要你亲自操作（比如手动配置环境变量）时很有用。

Q：systematic-debugging 的"三次失败规则"是绝对的吗？

A：不是"不许再改了"，而是"在第三次失败后，必须停下来讨论是不是编制层面问题，而不是继续猜"。如果讨论后确认不是编制问题，而是需要再试一个方向，当然可以继续------但要在讨论之后，不是直接冲第四次。

Q：整套 Superpowers 流程跑一遍要多久？

A：取决于任务复杂度。一个中等复杂的任务（4-6 个任务单元），brainstorming 30-40 分钟，writing-plans 15-20 分钟，执行时间因任务而异。第一次跑会觉得慢，但执行阶段的返工省下的时间通常能覆盖前期投入。

Q：Superpowers 的规程能自定义吗？

A：可以，writing-skills 规程就是教 Claude 怎么创建新规程的。你可以为自己的团队定制规程，比如加入公司的代码审查规范、部署流程约束等。Superpowers 的 ~/.config/superpowers/skills/ 目录支持个人规程库。

说到底，Superpowers 这套战场纪律解决的不是"Claude 能不能做"的问题------Claude 大部分情况下都能做------解决的是"Claude 会不会偷懒跳步骤"的问题。

185,000 stars 背后的共识就是：AI 编程工具最大的问题不是智力，是纪律，而纪律可以用纯文本分发。