Codex 探索：别急着调 Prompt，先把工作流收住

我用 Codex 越久，越发现：真正决定协作质量的，不是那句话怎么写，而是你有没有给它一个靠谱的结构。

一开始我也觉得是模型的问题------为什么又理解偏了，为什么任务越做越大，为什么任务越来越难改的动。

后来我才意识到，问题不在 Codex，而在我：我一直把它当聊天框用，而不是当工作流用。这个认知的转变，比换多少 Prompt 都管用。

如果你也在折腾 Codex，我把这套还在持续打磨的 playbook 放到了 GitHub：HuiDBK/codex-playbook

你以为卡在 Prompt，其实卡在工作方式

大家最容易优化的，通常是模型选择、slash command 用法、Prompt 怎么写得更"高级"。这些都值得做，但它们不是最先该动的地方。

我最近遇到的真实问题，几乎都更底层：

任务边界没收住，一轮会话越聊越大
实现、审查、继续修改全混在一起
没有收口点，小需求最终变成长对话

这些问题有个共同点：不会在第一时间炸掉你，但会一点点吞掉你的注意力。等你反应过来，不是"代码写不出来"，而是"这轮协作已经不干净了"。

AGENTS.md：不是门牌，是地基

以前我对 AGENTS.md 的理解停留在"写点规则、显得规范"。现在我完全不这么看了。

它真正的价值，是把你每轮都要重新提醒一遍的东西，变成默认契约。但它不该越写越长------根规则保持短，展开说明放进对应文档，需要时再加载。

几条核心规则：

一轮只做一个小闭环：不顺手优化，不顺手重构，改完优先给改动摘要和验证结果
先找执行路径和最小改动面，再开始写：搞清楚怎么改之前，不要急着动手

这些规则没有一条看起来"高级"。但只要缺其中两三条，整个协作体验马上往下掉。

贴一份我目前探索的全局 AGENTS.md

md 复制代码

## 范围控制

- 默认一轮会话只做一个小闭环。
- 先完成当前任务，不把"顺手优化"混入本轮。
- 不做未明确要求的重构，不改无关文件。
- 如果任务明显膨胀，先停下来说明原因，再继续。

## 执行方式

- 中等及以上任务，先复述目标、边界、方案和风险，再执行。
- 先找执行路径、相关文件和最小改动面，再开始修改。
- 优先复用现有模式，避免为了当前任务引入额外抽象。
- 需求不清且错误假设会造成明显返工时，先对齐，不硬做。
- 涉及较大行为变更、较大重构或高风险假设时，先对齐再改，不擅自推进。
- 不要只机械执行表面要求，要主动理解真正目标。
- 如果我给出的方案存在明显风险、局限或更优替代路径，要明确指出，并将"按要求执行"和"更优建议"分开表达。

## 输出方式

- 改完后优先给出：改动摘要、修改文件、验证结果、剩余风险。
- 默认简洁输出，不写长篇解释。
- 如果没法验证，直接说明，不模糊带过。

## Review

- 做 review 时，先看范围是否失控，再看行为、失败路径和测试缺口。

三件事，彻底分开

以前我会把很多动作混在一起：边分析边改、边 review 边继续实现。表面流畅，实际容易失控。现在我把三件事硬拆开：

Plan：不是礼貌版开工，而是避免返工

如果执行路径还不清楚、改动可能跨模块、或者任务明显还没拆小，这时候最该做的不是"直接试试看"，而是先做 Plan。

Plan 阶段最重要的输出不是代码，而是三样东西：执行路径、最小改动面、主要风险。它解决的是别开错工。

审查：单独的一轮收口，不是暖场

只 review，不继续实现。重点看几件事：有没有改动越界、行为是否符合验收标准、失败路径有没有漏、测试是否只测了表面。它解决的是别带病交付。

多 agent：边界清楚时才加速，不是默认选项

很多人觉得任务一大，开几个 agent 就快了。真实情况通常相反------主问题没想清楚时，多 agent 只会把混乱复制好几份。只有主任务明确、子任务边界清楚且彼此独立时，并行才真的有意义。

一个简单的判断：

没想清楚怎么做 → 用 Plan
已有实现只想找问题 → 用审查
主任务明确、子任务可并行 → 再开多 agent

这条规则很朴素，但真的帮我省掉了大量无效对话。

验证会不会污染当前环境

这点以前我没太认真想过。默认让工具在当前工作区跑 build 和测试，看起来省事。但你只要多做几次，副作用就开始出现：缓存留下来了、临时文件留下来了、本来干净的工作区悄悄变脏了。

所以我现在的原则是：代码修改在当前工作区做，build 和实验性命令放到临时 worktree 或 /tmp 副本里跑。隔离成本明显过高时才例外。

一旦验证不再总是伴随"把现场弄乱"的代价，你会发现自己敢更频繁地验证------工作流整体也稳得多。

最后留下来的：小闭环

折腾到最后，我最认同的东西反而很朴素：不要把 Codex 当成一个可以一直聊下去的窗口，要把它放进一个稳定的小闭环。

我现在比较舒服的一轮，通常是这样的：

压缩目标：把任务压成一个明确的小目标，写清楚这轮不做什么、改哪些地方、怎么验收
先找路径：让它找执行路径和最小改动面，再开始实现
实现后看 diff：完成后立刻看改动范围，跑最小必要验证
单独审查，然后收口：做一轮独立审查，确认没有带病交付，然后结束这轮会话

这套东西一点都不性感，不像"神级 Prompt"那样让人兴奋，也不像"多 agent 并行"那样听起来很猛。

但真正让我效率稳定下来的，恰恰是这些不花哨的动作。

工欲善其事，必先利其器。我现在理解的"利其器"，不只是 Prompt 怎么写------而是规则、边界、验证、审查和收口这些结构有没有先搭起来。

这些东西一旦搭住，Codex 才是生产力；缺位了，它就只是一个"偶尔很好用、偶尔把你带偏"的聊天框。

注意：很多东西是和AI探讨出来的，更偏个人观点，也有很多需要改进与探索，大家参考即可，搭让自己用起来顺畅、懂你的 Agent 工具。

Github：github.com/HuiDBK/code...