Agent First Engineering

👀 最新、最有用的AI编程姿势，总来自「知识药丸」

《贾杰的AI编程秘籍》付费合集，共10篇，现已完结。30元交个朋友，学不到真东西找我退钱；）

以及我的墨问合集《100个思维碎片》，1块钱100篇，现已完结。（文末有订阅方式

质量更顶的《又100个思维碎片》不定期更新中，与你探讨AI编程2.0等有意思的话题（文末有订阅方式

写在前面

最近读到一篇来自 OpenAI 工程师 Ryan Lopopolo 的文章，讲的是他们团队用 Codex 构建一个内部产品的全程------0 行人工代码，历时 5 个月，百万行代码级别。

我第一反应是：这不是噱头吗？

看完之后发现，这不是在炫耀 AI 有多强，而是在认真回答一个问题：当 AI 真的能写代码了，工程师该干什么？

这篇是我自己的学习笔记，从一个旁观者的角度整理，希望对你也有用。

一个反常识的结论

我们习惯于认为，AI 辅助编程的瓶颈在 AI 本身------模型够不够聪明、上下文够不够长。

但这个团队的经历说的恰恰相反：早期进度慢，不是因为 Codex 不够强，而是因为环境太烂了。

工具缺失、文档混乱、结构不清晰------这些"人类勉强能接受"的环境，对 AI 是致命的。AI 没法靠直觉补全信息，没法靠经验猜测意图，它只能用它能"看到"的东西。

这个结论挺刺激的：我们以为在优化 AI，其实在优化自己的工程环境。

工程师的角色变了

以前我们说"用 AI 提效"，潜台词是：AI 帮你写，你来审。

但这个团队做的是另一回事------工程师不再写代码，而是在设计让 AI 能写好代码的环境。

具体来说是三件事：拆解目标、构建脚手架、建立反馈回路。

有点像从"出租车司机"变成了"城市规划师"。司机关注的是怎么走这条路，规划师关注的是怎么把路修好，让所有车都能跑快。

给 AI 地图，不是说明书

这是整篇文章我觉得最有价值的一个洞察。

他们最初试过把所有规则塞进一个大 AGENTS.md，结果可想而知------规则越多，越没用。

为什么？因为 上下文是稀缺资源。一个 1000 行的说明书占满了窗口，AI 根本没空间去理解任务本身。而且规则一多，重要的和不重要的混在一起，AI 开始"模式匹配"而不是真正理解。更糟的是，这种文件会快速腐烂------没人维护，内容越来越失真，AI 越读越乱。

他们的解法是：AGENTS.md 只做导航，不做百科全书。

大约 100 行，告诉 AI "去哪里找什么"，然后把真正的知识分散放在 docs/ 目录里，结构清晰，各司其职。

用一个比喻来说：这就像图书馆的索引卡片和图书馆本身的关系。你不会把所有书的内容都印在索引上；你只需要知道，想找某类书，去几号书架。

AI 看不见的东西，等于不存在

这句话听起来很绕，但是很重要。

他们发现，所有存在于 Google Docs、Slack、或者某人脑子里的知识，对 AI 来说完全不可见。一个对齐了团队架构方向的 Slack 讨论，如果没有沉淀进 repo，AI 就会绕着它转，做出各种"合理但错误"的决策。

这件事对我的冲击很大。因为我们平时觉得"口口相传"或者"在频道里说过"就算达成共识了，但对 AI 来说，这等于什么都没说。

推论也很清晰：要让 AI 做得好，就必须把知识显式化、结构化、版本化，放进 repo。

这其实是一个好习惯，跟 AI 无关。新同事入职，是不是也面临同样的问题？

用约束换自由

文章里另一个反直觉的点：他们给 codebase 加了非常严格的架构约束------每个业务域分固定的层次，依赖方向只能单向，跨切关注点只能通过 Provider 进入。

这种架构，通常是有几百号工程师的大团队才会搞的"奢侈品"。

但他们的结论是：对 AI 来说，这不是奢侈品，是基础设施。

原因在于，AI 会复制已有的模式。环境混乱，AI 就制造混乱；环境有序，AI 就维持有序。严格的约束是乘数，不是枷锁------约束编码一次，就在每一行代码上生效。

而且他们的 lint 报错信息也是精心设计过的，专门写成能注入进 AI 上下文的补救说明。这个细节让我觉得很妙：不是让 AI 猜怎么改，而是直接在报错里告诉它。

技术债要像垃圾回收一样处理

他们曾经每周五花 20% 的时间手动清理"AI slop"（AI 遗留的垃圾代码），最后发现这根本撑不住。

后来的做法是：把"整洁原则"写进 repo，然后让另一批 Codex 任务定期扫描偏差、开修复 PR，大多数 PR 不到一分钟就能 review 完，直接 automerge。

这个思路其实跟 GC（垃圾回收）一模一样。技术债是高息贷款，越拖越贵，不如持续小额偿还。

人工品味（human taste）被捕捉一次，然后持续在每一行代码上执行。这个杠杆比人肉 review 高太多了。

自主度是逐渐解锁的

文章里列出了一个单 prompt 下 Codex 现在能做的事：复现 bug、录视频、修复、验证、开 PR、响应 review、检测构建失败、最终 merge......

但他们加了一句很重要的话：这高度依赖于这个 repo 自身特定的结构和工具，不应该假设它能直接泛化到其他地方。

这句话很克制，也很诚实。这不是"AI 已经能独立干活了"的宣言，而是说：你把环境建好了，AI 的自主度才能跟着上来。

自主度不是 AI 自己涌现的，是工程师一点一点设计出来的。

总结

这篇文章给我最大的收获，不是"AI 多厉害"，而是一个更朴素的认知：

软件工程的核心从来不是写代码，而是管理复杂度。 只不过以前我们用写代码来思考，现在可以用设计环境来思考。

AI 是个能力极强但感知受限的队友------它看不见你的意图，只能看见你的 repo。你把 repo 整理得越清晰，它发挥得越好。

工程师的工作变了，但对严谨性的要求没变，甚至更高了。

参考资料

原文：Harness engineering: leveraging Codex in an agent-first world --- Ryan Lopopolo, OpenAI, Feb 11, 2026