2026 年 2 月,OpenAI 发了一篇文章,悄悄改写了"工程师"这个职业的定义。
一切的起点
2025 年 8 月,OpenAI 内部一个小团队做了一个疯狂的实验:从零开始构建一款软件产品,一行代码都不许人写。
所有代码------应用逻辑、测试、CI 配置、文档、监控、内部工具------全部由 Codex(OpenAI 的 AI 编码智能体)生成。
五个月后,结果出来了:
- 约 100 万行代码
- 约 1,500 个 Pull Request
- 推动这一切的,最初只有 3 名工程师(后来扩展到 7 名)
- 人均每天处理 3.5 个 PR,而且还在加速
- 完成时间约为手工编写的 1/10
这个产品不是玩具------它有内部日常活跃用户,有外部 Alpha 测试者,经历过上线、出故障、修 bug 的完整生命周期。
OpenAI 把这个实验中总结出的工程范式命名为:Harness Engineering(驭缰工程)。

一个令人震惊的数据
LangChain 引用了 Terminal Bench 2.0 的基准测试数据:
同一个模型(Opus 4.6),在 Claude Code 的 harness 中排第 33 名,换一个 harness 直接排到第 5。
纯 harness 优化可以把排名从 Top 30 拉到 Top 5。
这意味着什么?你不一定需要更强的模型,你可能只是需要更好的 harness。
这就像同一匹马,换个骑手和缰绳,成绩天差地别。
核心转变:从写代码到设计约束
传统的软件工程是这样的:
bash
人类写代码 → 机器执行代码
Harness Engineering 是这样的:
bash
人类设计约束 → 智能体写代码 → 机器执行代码
工程师的产出不再是代码,而是约束系统。

什么是约束系统?包括但不限于:
- AGENTS.md --- 告诉智能体"这个仓库长什么样、怎么工作"的导航文件
- 架构规则 --- 依赖方向、分层约束、边界定义
- 自定义 Linter --- 把编码规范变成可机械执行的检查
- 反馈回路 --- 让智能体能自己验证工作成果
- 结构化文档 --- 设计决策、执行计划、技术债追踪
人类掌舵,智能体执行。
Copilot 时代是"用 AI 辅助写代码"。Harness Engineering 直接翻篇:让 AI 完全写代码,人类负责让 AI 写对。
六大核心概念
OpenAI 在实践中总结了六条关键经验。每一条都颠覆了传统认知。
1. 仓库即记录系统
不在仓库里的东西,对智能体不存在。
Slack 讨论里的决策?不存在。Google Docs 里的设计文档?不存在。你脑子里的经验?更不存在。
智能体能看到的,只有仓库里的文件。 所以一切决策、规范、计划都必须以版本化工件提交到仓库。
这就像一个新入职的同事------他看不到你脑子里在想什么,只能看你写下来的东西。区别是,这个"同事"每次对话都是全新的,没有记忆延续。
2. 地图而非手册
OpenAI 一开始试了"一个超大的 AGENTS.md",结果惨败:
- 挤占上下文 --- 巨大的指令文件把任务相关的代码和文档挤出去了
- 等于没说 --- 当一切都"重要",一切都不重要了
- 立即腐烂 --- 庞杂的手册变成陈旧规则的坟场
- 无法验证 --- 单个大 blob 不适合做机械检查
解决方案:AGENTS.md 约 100 行,当目录页用,指向更深层的文档。
渐进式披露------智能体从小入口开始,被引导到下一步该看什么。
3. 机械化执行
文档会腐烂,lint 规则不会。
OpenAI 把编码规范写成了自定义 linter。而且,他们在 linter 的错误信息里嵌入了修复指令------智能体看到报错,就知道怎么修。
Martin Fowler 在文章中也提到,一些团队用 AI 来生成自定义 linter------用智能体来写约束智能体的规则。
核心原则:能用代码表达的约束,绝不只写在文档里。
4. 智能体可读性
为智能体优化代码的可读性,优先于为人类优化。
具体做法包括:
- 选择"无聊"的技术------API 稳定、训练集覆盖好、行为可预测
- 有时候重新实现一个子集比包装复杂的第三方库更划算
- 让应用可以按 git worktree 启动,这样智能体每次任务都能在一个独立实例上工作
- 把 Chrome DevTools 协议接入智能体,让它能看到 UI、复现 bug、验证修复
5. 吞吐量改变合并理念
传统工程里,PR 审查是严肃的事,测试失败必须修好才能合并。
在 Harness Engineering 的世界里,智能体吞吐量远超人类注意力:
- PR 生命周期很短
- 测试偶发失败通过后续重跑解决
- 纠错成本低,等待成本高
在低吞吐量环境里这不负责。在智能体高速运转的系统里,这是正确策略。
6. 熵管理 = 垃圾回收
技术债是高息贷款,要每天小额偿还,别让它滚雪球。
智能体会复现仓库里已有的模式------包括坏模式。如果不主动清理,代码质量会越来越差。
OpenAI 的做法:
- 把"黄金原则"编码到仓库中
- 定期运行后台 Codex 任务,扫描偏差、更新质量评分、发起重构 PR
- 大多数重构 PR 可以在一分钟内审查并自动合并
把技术债当成信用卡------每天小额还款,别让它滚雪球。
精确定义:Agent = Model + Harness
来自 LangChain、Martin Fowler 和 HumanLayer 的综合定义:
裸模型不是智能体。它只接受文本,输出文本。
当 Harness 给它状态、工具、反馈回路和可执行约束时,它才成为智能体。
Harness(缰绳/驾驭系统)= 模型之外的一切代码、配置和执行逻辑。包括:
| 组件 | 作用 |
|---|---|
| System Prompts | AGENTS.md、CLAUDE.md --- 智能体的"入职手册" |
| Tools & MCP | 扩展智能体能力的工具和协议 |
| Skills | 渐进式加载的知识包 |
| 沙箱基础设施 | 文件系统、浏览器、隔离执行环境 |
| 编排逻辑 | 子智能体生成、任务分发、模型路由 |
| Hooks/中间件 | compaction、续接、lint 检查 |
| 背压机制 | 测试/构建/类型检查 = 自我验证回路 |
Martin Fowler 用了一个 2×2 矩阵来描述这些组件如何协同:
| 确定性(CPU) | 语义性(LLM) | |
|---|---|---|
| 前馈(引导) | bootstrap 脚本、LSP、OpenRewrite | AGENTS.md、Skills、architecture.md |
| 反馈(感知) | linter、类型检查、覆盖率 | AI code review、LLM-as-judge |
前馈在智能体行动之前引导它,反馈在行动之后观察和纠正。两者缺一不可。
工程师的角色变了
在 Harness Engineering 的世界里,工程师做什么?
不再做:
- ❌ 手写代码
- ❌ 逐行 code review
- ❌ 手动调试
- ❌ 维护文档
转而做:
- ✅ 设计环境和架构约束
- ✅ 编写和维护 AGENTS.md
- ✅ 把规范转化为可执行的 linter 规则
- ✅ 构建反馈回路(测试、CI、自动化验证)
- ✅ 管理智能体的上下文和工具
- ✅ 在智能体卡住时识别"缺了什么",补充进去
工程师的工作重心从"执行"变成了"设计让执行可靠的系统"。
Ralph Wiggum 循环:Harness Engineering 的核心实现
OpenAI 在实践中采用了 "Ralph Wiggum 循环"模式(名字来自 LangChain):
这个循环的关键特征:
- Fresh Context --- 每次迭代重新读取上下文,不会积累错误
- Backpressure --- 不规定怎么做,但门控拒绝坏结果
- The Plan Is Disposable --- 计划随时可以重来,成本很低
- Disk Is State, Git Is Memory --- 文件是交接机制,git 是记忆
- Let Ralph Ralph --- 坐在循环上,不坐在循环里
单次运行经常持续 6 小时以上------通常在人类睡觉的时候跑,第二天起来看结果。
这场范式转移已经在发生
OpenAI 的这个实验不是实验室演示。它是一个正在为真实用户交付真实产品的生产系统。
更重要的是,这个范式正在快速扩散:
- Martin Fowler(ThoughtWorks) 发了专题文章,用控制论框架分析 Harness Engineering
- LangChain 从 Agent 架构角度重新定义了 Harness
- Anthropic 分享了 Scaling Managed Agents 的经验
- 张汉东 写了《驾驭工程》(别名《马书》)------从 Claude Code 源码中提炼 AI 编码最佳实践,30 章 7 篇
- deusyu 建了 harness-engineering 学习指南------19 篇文章深度摘要 + 12 篇专业翻译
它已经从一个公司的内部实践,扩散成软件工程范式的一次根本性转变。
写在最后
如果你是一个工程师,读到这篇文章,你的第一反应可能是焦虑------"AI 要取代我了"。
但 OpenAI 的实验恰恰说明相反的事:工程师变得更重要了,只是做的事情不一样了。
100 万行代码,3 个人,不写一行代码。他们做的事比写代码更高级------设计让 AI 能可靠工作的系统。
这就是 Harness Engineering。
人类掌舵,智能体执行。
这个实验完成于 2026 年初,产品已经在跑。没有预言,只有事实。
这是 Harness Engineering 系列的第一篇。下一篇我们聊:AGENTS.md 到底怎么写------给智能体的"入职手册"怎么设计。
💡 觉得有启发?点个在看,转发给还在手写代码的同事------范式变了,越早知道越好。