给AI编程上一道“紧箍咒”:Superpowers的军法式重构

你有没有指挥过这样一支部队------让它攻一个阵地,三百发炮弹噼里啪啦就砸过去了,打下来一看,目标炸了七八成,剩下那两成全是它自己判断的"附带目标"。你说这是误炸,它说好,又轰了一轮,结果把已经占领的据点也顺手炸平了。

这不是你的士兵不够精锐。是它太"积极"了------不请示、不确认、不收队,见到目标就开火。

Superpowers 解决的就是这个问题。 不是给你的 AI 编程助手加一门新式火炮,而是给它套上一部《作战手册》。

这个"插件"在 GitHub 上六个月跑到 185,000 stars,但观察下来,大多数人装完之后用法是这样的:开一个新任务,喊一句 /brainstorming,然后一路回答几个问题,最后让它写代码。仅此而已。相当于给部队配发了全套《战场纪律》,结果指挥官只读了第一页的"开火权限说明",后面的"作战流程""战后清点""纪律审查"一概跳过。

这篇文章从 Superpowers 的核心条令出发,拆解那些大多数人没认真翻过的作战规程,把完整的战场指挥流程跑通。

第一部:这不是新武器,这是《军法》的文本分发

先说一个可能颠覆你认知的事情:Superpowers 里的每一条作战规程,本质上就是一个 Markdown 文件------里面写的是"当你遇到这类战场态势时,你必须按这个流程走"。不是代码,不是新工具,就是纯文本的行为约束。

这背后有一个很深刻的战场洞察:AI 编程 Agent 缺的从来不是火力,而是纪律。Claude 知道该做战前侦察,但在"先给我轰一炮看看"的语境下,它会跳过;Claude 知道要查明敌情再动手,但你说"快帮我冲一下",它就直接冲了。

Superpowers 做的事情就是------用白纸黑字的"军法"强制执行这些指挥官该有的纪律,让 Claude 不管你催得多急,都不会绕过应走的战场流程。

目前条令包含 14 项作战规程,分三类:

  • 作战前检查类: test-driven-development
  • 战场处置类: systematic-debugging、verification-before-completion
  • 战役指挥类: brainstorming、writing-plans、executing-plans、subagent-driven-development、dispatching-parallel-agents、requesting-code-review、receiving-code-review、using-git-worktrees、finishing-a-development-branch、writing-skills、using-superpowers

下面拆解最核心的五项军规。

第二部:军规一------作战方案审批制,未经批准不得开火

这是大多数人用得最多、也执行得最浅的规程。

多数指挥官的用法是:喊 /brainstorming,回答几个敌情问题,然后......直接下令开火。相当于只走了作战手册的前三步"侦察-报告-请示",最关键的后六步"方案论证-方案审批-书面备案-存档签发-移交执行"全跳过了。

打开 brainstorming 的 SKILL.md,第一条硬性命令是这样写的:

在向指挥官提交作战方案并获得批准之前,禁止调用任何执行类规程,禁止编写任何代码,禁止搭建任何项目,禁止采取任何执行行动。

注意这是"命令",不是"建议"。是"不管你觉得这仗多好打,方案没批,一枪都不许开"。

完整的作战方案制定流程是 9 步:

  1. 全面侦察战场态势(查看文件、提交记录、项目文档)
  2. 如有视觉/交互问题,先提供态势示意图
  3. 逐条向指挥官澄清疑点(每次只问一条)
  4. 提出 2-3 套作战方案并给出推荐理由
  5. 按章节展示方案,每段都需指挥官确认
  6. 将方案写入 docs/superpowers/specs/YYYY-MM-DD--design.md 并提交存档
  7. 方案自检:扫描未定事项、内部矛盾、覆盖范围、歧义表述
  8. 让指挥官审阅方案文件并签字
  9. 移交 writing-plans 规程进入下一阶段

最容易跳过的是步骤 6-8。 大多数指挥官跑到步骤 4-5 就觉得"差不多了,直接开打吧",结果方案没有落到书面文档里,后面执行阶段 Claude 的"战场记忆"就开始漂移,打到一半忘了之前说好的攻击路线怎么定的。

还有一个设计细节:brainstorming 明确规定,它的终态只有一个------移交 writing-plans。不允许跳过到任何其他规程。这强制你走完整个"方案→计划→执行"的完整战役链条,而不是跳着打。

用这个规程执行过一次战场复盘任务,第一次走完整 9 步花了 40 分钟,感觉很慢。但后面执行阶段几乎没有返工。对比之前直接让 Claude 冲上去打,"方案"环节省了 30 分钟,但后来调整了三轮,总时间反而多了两小时。

有一条反直觉的军规: 规程里说,"如果你觉得这场战斗太简单、不需要方案,那更要走流程。简单战斗里的隐含假设,是浪费弹药的最大来源。"就连一个哨位调整,也必须走完整流程,方案可以短(几句话),但不能省。

第三部:军规二------战场排查四阶段,未查明敌情禁止出击

这是价值最被低估的规程。

普通的战场处置姿势是:前沿报错 → 把情报贴给 Claude → 它说"可能是 X,试试调整这里" → 你试了 → 没解决 → 再汇报 → 它说"那可能是 Y" → 反复横跳。

这种模式下,按照 Superpowers 里的数据:常规战场排查平均耗时 2-3 小时;用 systematic-debugging,15-30 分钟

差距这么大的原因是:Claude 的默认模式是猜,systematic-debugging 强制它必须查明根因才能提出处置方案。

铁律:未查明根因之前,禁止提出任何修复方案。

四个阶段(必须按顺序,前一阶段没完成不许进入下一阶段):

第一阶段:根因调查

  • 完整读取错误信息(不是"看一眼",是"读完整")
  • 确定稳定复现步骤
  • 检查最近的战场变更记录
  • 对多组件系统,在每个边界打诊断日志,先跑一次收集证据,再分析哪里断裂

第二阶段:模式分析

  • 找到同一战场里类似且能正常运转的编制
  • 和出问题的编制逐项对比差异("每一个差异,不管多小,都列出来,不要假设那个没关系")
  • 理解依赖和假设条件

第三阶段:单假设验证

  • 写下一个具体的假设("我认为 X 是根因,因为 Y")
  • 做最小变更验证
  • 不对的话:换新假设,不要叠加改动

第四阶段:执行处置

  • 先写能复现问题的测试用例
  • 只改一处
  • 如果三次修复都没解决问题:停下来,讨论是不是编制层面有问题

这里有一条最实用的战场规则:三次失败必须停。

如果试了 3 次处置方案都没有解决,systematic-debugging 要求你停下来,不再尝试第四次,而是退后一步讨论"是不是这个作战模式本身就有问题"。

这和大多数指挥官的直觉是相反的------大多数人在第三次失败之后会更焦虑地试第四次、第五次。但每次额外的猜测性调整,都在给战场引入新的不确定性,而且还在浪费弹药。

规程里有一份"战场常见借口对照表":

借口 真相
"这个问题很简单,不用走流程" 简单的问题也有根因,流程对简单问题反而更快
"紧急情况,没时间调查" 系统性排查比猜测快多了,"紧急"不是理由
"先试一下再说" 第一次就确立猜测模式,后面就一直猜
"我已经大概知道问题在哪了" 知道症状不等于知道根因

第四部:军规三------作战计划分拆制,每步 2-5 分钟,不留占位符

brainstorming 结束后,会移交给 writing-plans。这个规程的核心职责是:把作战方案拆成可以被 AI 或士兵一步步执行的任务清单

关键设计决定:每个任务步骤的粒度是 2-5 分钟。

具体什么意思?一个任务里的步骤是这样的:

  • Step 1: 写一个失败的测试
  • Step 2: 跑一下,确认它确实失败
  • Step 3: 写最小实现让测试通过
  • Step 4: 跑测试,确认通过
  • Step 5: Commit

注意,"写一个失败的测试"和"跑一下确认它失败"是两个独立步骤,不是一步。这种粒度设计的目的是:让执行者在每一步都有明确的完成判定标准,不会出现"做了一半,不知道算不算完成"的情况。

writing-plans 还有一个"零占位符"规则:

以下写法会被认为是计划失败,必须修正:

  • "TBD"、"TODO"、"后续处置"
  • "添加适当的错误处理"(不写具体怎么处理)
  • "写上述内容的测试"(不给测试代码)
  • "类似任务 N"(重复内容,不允许引用)

这个规则是为了解决一个真实问题:当 Claude 在后续执行计划时,如果遇到 TBD,它要么停下来问,要么自己发挥------两个都是战场噩梦。

计划写完之后,writing-plans 会给你两个执行选项:

选项 1:subagent-driven-development(推荐) ------ 每个任务派一个新的执行单元,带两轮审查

选项 2:executing-plans ------ 在当前指挥链里串行执行,适合没有独立执行单元支持的环境

第五部:军规四------平行指挥 vs 串行执行,怎么选

这是很多人困惑的地方,选错了效率差一大截。

平行指挥模式的工作方式:

  • 每个任务调派一个全新的执行单元
  • 新执行单元拿到计划文件和当前任务,用干净的战场态势开始工作
  • 两轮审查:先看方案合规性,再看执行质量
  • 完成后回报,主指挥决定是否继续下一个任务

串行执行模式的工作方式:

  • 在当前指挥链里串行执行所有任务
  • 战场态势累积,指挥链越来越长
  • 批量执行,定期设检查点让指挥官介入

怎么选的规则很简单:

战场态势 选哪个
有独立执行单元支持的环境 平行指挥模式
无独立执行单元支持的环境 串行执行模式
任务数量多、态势容易漂移 平行指挥模式
简单小任务、不想多绕一圈 串行执行模式

Superpowers 的文档里直接说:"如果你的环境支持独立执行单元,就用平行指挥模式,执行质量会显著更高。"原因是干净的战场态势让 Claude 不会被之前的错误尝试带偏。

实际感受:有一次做一个有 8 个任务的功能,用串行执行模式跑,跑到第五个任务时 Claude 开始"综合"前面几个任务的修改,把一个已经通过的测试改坏了。换平行指挥模式,每个执行单元只看自己的任务,这种"态势串扰"就基本消失了。

代价是:平行指挥模式每个任务都要重新加载计划文件,调用开销略高。但按弹药效率算,避免一次返工节省的成本远大于这个开销。

第六部:军规五------战后清点制,干净收尾,不留烂摊子

这是战役指挥的终点,也是最容易被跳过的规程。

很多指挥官跑完任务直接提交推上去,或者干脆让 Claude 帮你合并,没有走这个规程。结果是:测试没跑、隔离区没清、分支没处理,留一堆烂摊子。

战后清点的流程:

第一步:验证测试全部通过(如果测试失败,直接停,不进入后续步骤)

第二步:确定基准分支

第三步:给出四个选项:

  1. 本地合并回主分支
  2. 推送并创建拉取请求
  3. 保留分支(稍后处理)
  4. 废弃本次工作

第四步:按选择执行

第五步:清理隔离区(选 1 和 4 才清理,选 2 和 3 保留)

这个规程有一个设计细节:废弃选项需要你手动输入"discard"才能执行,不是随便点一下就行。防止误操作删掉本该保留的工作成果。

第七部:完整战役指挥流程图

把上面说的串起来,一次完整的战场任务执行是这样的:

brainstorming ← 方案制定阶段,产出书面方案


using-git-worktrees ← 创建隔离作战区


writing-plans ← 把方案拆成 2-5 分钟的可执行任务


subagent-driven-development 或 executing-plans ← 平行或串行执行


test-driven-development (贯穿执行阶段)← RED-GREEN-REFACTOR


requesting-code-review ← 提请审查前的自检


finishing-a-development-branch ← 选择合并/拉取请求/保留/废弃,清理隔离区

如果中途遇到战场异常,插入 systematic-debugging ;如果验证有疑问,插入 verification-before-completion

整套流程第一次跑会觉得"好麻烦啊"。前两次确实比直接让 Claude 直接开火慢,但从第三次开始,因为方案和计划写得完整,执行阶段的返工率断崖式下降,总时间反而更短。

两个常见战场失误

失误一:态势漂移

长时间指挥链里,Claude 会逐渐"忘记"自己有规程可以用,开始按默认模式行事:跳过测试、直接猜问题、不问方案就写代码。

解法: 遇到这种情况,显式喊一下 /using-superpowers,会帮 Claude "重置",重新建立规程优先级。

失误二:把方案制定当问答机用

brainstorming 规程里问问题是为了做方案,不是"帮你想清楚任务"。很多人把它当成一个"AI 参谋"来用------我说一个模糊的任务,你帮我想清楚。

这没问题,但如果停在这一步,没有走到书面方案和作战计划,后面执行阶段 Claude 拿不到一个明确的执行依据,质量会大打折扣。

brainstorming 的价值在于产出并存档一个书面方案,这才是后续所有执行质量的基础。

常见战场问答

Q:Superpowers 适合小规模战斗吗?感觉流程太重了。

A:brainstorming 的方案可以很短,一个调整只需要几句话的方案文档。流程轻重是相对的,问题不是"战斗大不大",而是"你能不能接受返工"。见过很多"5 分钟小调整",因为没有方案直接上手,结果改了三轮花了两小时。

Q:平行指挥和串行执行可以混用吗?

A:可以,同一个计划里,你可以某些任务用平行指挥,某些任务自己手动执行。这在部分任务需要你亲自操作(比如手动配置环境变量)时很有用。

Q:systematic-debugging 的"三次失败规则"是绝对的吗?

A:不是"不许再改了",而是"在第三次失败后,必须停下来讨论是不是编制层面问题,而不是继续猜"。如果讨论后确认不是编制问题,而是需要再试一个方向,当然可以继续------但要在讨论之后,不是直接冲第四次。

Q:整套 Superpowers 流程跑一遍要多久?

A:取决于任务复杂度。一个中等复杂的任务(4-6 个任务单元),brainstorming 30-40 分钟,writing-plans 15-20 分钟,执行时间因任务而异。第一次跑会觉得慢,但执行阶段的返工省下的时间通常能覆盖前期投入。

Q:Superpowers 的规程能自定义吗?

A:可以,writing-skills 规程就是教 Claude 怎么创建新规程的。你可以为自己的团队定制规程,比如加入公司的代码审查规范、部署流程约束等。Superpowers 的 ~/.config/superpowers/skills/ 目录支持个人规程库。

说到底,Superpowers 这套战场纪律解决的不是"Claude 能不能做"的问题------Claude 大部分情况下都能做------解决的是"Claude 会不会偷懒跳步骤"的问题。

185,000 stars 背后的共识就是:AI 编程工具最大的问题不是智力,是纪律,而纪律可以用纯文本分发。

相关推荐
极品小學生2 小时前
Claude Code 从零上手与进阶实战指南
ai编程
TDengine (老段)2 小时前
TDengine VNode 生命周期 — 从创建到销毁的完整旅程
大数据·数据库·重构·系统架构·负载均衡·tdengine·涛思数据
Java后端的Ai之路15 小时前
CodeBuddy-Rules配置
人工智能·python·ai编程
2501_9219608515 小时前
协同本体论 V4.2+:离散关系拓扑涌现连续时空几何的数值验证
数据结构·人工智能·重构
阿Q十四16 小时前
老板怎么带团队?从 Claude Code 源码学 Multi-Agent 的“派活”艺术
ai编程
通信小呆呆16 小时前
基于 ADMM-MFOCUSS 的捷变频雷达扩展目标稀疏重构原理
算法·重构·信息与通信·信号处理·雷达
名不经传的养虾人17 小时前
从0到1:企业级AI项目迭代日记 Vol.26|用AI是借力,教AI才是复制自己
人工智能·ai编程·skill·教ai复制自己
ZengLiangYi17 小时前
Cursor 对话导入:解析 SQLite 里的宝藏
ai编程·cursor
阿耶同学17 小时前
🔥 CrewAI 实战:构建多 Agent 协作团队
ai编程