3 个人，100 万行代码，一行都没人写：OpenAI 的 Harness Engineering 实验

2026 年 2 月，OpenAI 发了一篇文章，悄悄改写了"工程师"这个职业的定义。

一切的起点

2025 年 8 月，OpenAI 内部一个小团队做了一个疯狂的实验：从零开始构建一款软件产品，一行代码都不许人写。

所有代码------应用逻辑、测试、CI 配置、文档、监控、内部工具------全部由 Codex（OpenAI 的 AI 编码智能体）生成。

五个月后，结果出来了：

约 100 万行代码
约 1,500 个 Pull Request
推动这一切的，最初只有 3 名工程师（后来扩展到 7 名）
人均每天处理 3.5 个 PR，而且还在加速
完成时间约为手工编写的 1/10

这个产品不是玩具------它有内部日常活跃用户，有外部 Alpha 测试者，经历过上线、出故障、修 bug 的完整生命周期。

OpenAI 把这个实验中总结出的工程范式命名为：Harness Engineering（驭缰工程）。

一个令人震惊的数据

LangChain 引用了 Terminal Bench 2.0 的基准测试数据：

同一个模型（Opus 4.6），在 Claude Code 的 harness 中排第 33 名，换一个 harness 直接排到第 5。

纯 harness 优化可以把排名从 Top 30 拉到 Top 5。

这意味着什么？你不一定需要更强的模型，你可能只是需要更好的 harness。

这就像同一匹马，换个骑手和缰绳，成绩天差地别。

核心转变：从写代码到设计约束

传统的软件工程是这样的：

bash 复制代码

人类写代码 → 机器执行代码

Harness Engineering 是这样的：

bash 复制代码

人类设计约束 → 智能体写代码 → 机器执行代码

工程师的产出不再是代码，而是约束系统。

什么是约束系统？包括但不限于：

AGENTS.md --- 告诉智能体"这个仓库长什么样、怎么工作"的导航文件
架构规则 --- 依赖方向、分层约束、边界定义
自定义 Linter --- 把编码规范变成可机械执行的检查
反馈回路 --- 让智能体能自己验证工作成果
结构化文档 --- 设计决策、执行计划、技术债追踪

人类掌舵，智能体执行。

Copilot 时代是"用 AI 辅助写代码"。Harness Engineering 直接翻篇：让 AI 完全写代码，人类负责让 AI 写对。

六大核心概念

OpenAI 在实践中总结了六条关键经验。每一条都颠覆了传统认知。

1. 仓库即记录系统

不在仓库里的东西，对智能体不存在。

Slack 讨论里的决策？不存在。Google Docs 里的设计文档？不存在。你脑子里的经验？更不存在。

智能体能看到的，只有仓库里的文件。 所以一切决策、规范、计划都必须以版本化工件提交到仓库。

这就像一个新入职的同事------他看不到你脑子里在想什么，只能看你写下来的东西。区别是，这个"同事"每次对话都是全新的，没有记忆延续。

2. 地图而非手册

OpenAI 一开始试了"一个超大的 AGENTS.md"，结果惨败：

挤占上下文 --- 巨大的指令文件把任务相关的代码和文档挤出去了
等于没说 --- 当一切都"重要"，一切都不重要了
立即腐烂 --- 庞杂的手册变成陈旧规则的坟场
无法验证 --- 单个大 blob 不适合做机械检查

解决方案：AGENTS.md 约 100 行，当目录页用，指向更深层的文档。

渐进式披露------智能体从小入口开始，被引导到下一步该看什么。

3. 机械化执行

文档会腐烂，lint 规则不会。

OpenAI 把编码规范写成了自定义 linter。而且，他们在 linter 的错误信息里嵌入了修复指令------智能体看到报错，就知道怎么修。

Martin Fowler 在文章中也提到，一些团队用 AI 来生成自定义 linter------用智能体来写约束智能体的规则。

核心原则：能用代码表达的约束，绝不只写在文档里。

4. 智能体可读性

为智能体优化代码的可读性，优先于为人类优化。

具体做法包括：

选择"无聊"的技术------API 稳定、训练集覆盖好、行为可预测
有时候重新实现一个子集比包装复杂的第三方库更划算
让应用可以按 git worktree 启动，这样智能体每次任务都能在一个独立实例上工作
把 Chrome DevTools 协议接入智能体，让它能看到 UI、复现 bug、验证修复

5. 吞吐量改变合并理念

传统工程里，PR 审查是严肃的事，测试失败必须修好才能合并。

在 Harness Engineering 的世界里，智能体吞吐量远超人类注意力：

PR 生命周期很短
测试偶发失败通过后续重跑解决
纠错成本低，等待成本高

在低吞吐量环境里这不负责。在智能体高速运转的系统里，这是正确策略。

6. 熵管理 = 垃圾回收

技术债是高息贷款，要每天小额偿还，别让它滚雪球。

智能体会复现仓库里已有的模式------包括坏模式。如果不主动清理，代码质量会越来越差。

OpenAI 的做法：

把"黄金原则"编码到仓库中
定期运行后台 Codex 任务，扫描偏差、更新质量评分、发起重构 PR
大多数重构 PR 可以在一分钟内审查并自动合并

把技术债当成信用卡------每天小额还款，别让它滚雪球。

精确定义：Agent = Model + Harness

来自 LangChain、Martin Fowler 和 HumanLayer 的综合定义：

裸模型不是智能体。它只接受文本，输出文本。

当 Harness 给它状态、工具、反馈回路和可执行约束时，它才成为智能体。

Harness（缰绳/驾驭系统）= 模型之外的一切代码、配置和执行逻辑。包括：

组件	作用
System Prompts	AGENTS.md、CLAUDE.md --- 智能体的"入职手册"
Tools & MCP	扩展智能体能力的工具和协议
Skills	渐进式加载的知识包
沙箱基础设施	文件系统、浏览器、隔离执行环境
编排逻辑	子智能体生成、任务分发、模型路由
Hooks/中间件	compaction、续接、lint 检查
背压机制	测试/构建/类型检查 = 自我验证回路

Martin Fowler 用了一个 2×2 矩阵来描述这些组件如何协同：

	确定性（CPU）	语义性（LLM）
前馈（引导）	bootstrap 脚本、LSP、OpenRewrite	AGENTS.md、Skills、architecture.md
反馈（感知）	linter、类型检查、覆盖率	AI code review、LLM-as-judge

前馈在智能体行动之前引导它，反馈在行动之后观察和纠正。两者缺一不可。

工程师的角色变了

在 Harness Engineering 的世界里，工程师做什么？

不再做：

❌ 手写代码
❌ 逐行 code review
❌ 手动调试
❌ 维护文档

转而做：

✅ 设计环境和架构约束
✅ 编写和维护 AGENTS.md
✅ 把规范转化为可执行的 linter 规则
✅ 构建反馈回路（测试、CI、自动化验证）
✅ 管理智能体的上下文和工具
✅ 在智能体卡住时识别"缺了什么"，补充进去

工程师的工作重心从"执行"变成了"设计让执行可靠的系统"。

Ralph Wiggum 循环：Harness Engineering 的核心实现

OpenAI 在实践中采用了 "Ralph Wiggum 循环"模式（名字来自 LangChain）：

这个循环的关键特征：

Fresh Context --- 每次迭代重新读取上下文，不会积累错误
Backpressure --- 不规定怎么做，但门控拒绝坏结果
The Plan Is Disposable --- 计划随时可以重来，成本很低
Disk Is State, Git Is Memory --- 文件是交接机制，git 是记忆
Let Ralph Ralph --- 坐在循环上，不坐在循环里

单次运行经常持续 6 小时以上------通常在人类睡觉的时候跑，第二天起来看结果。

这场范式转移已经在发生

OpenAI 的这个实验不是实验室演示。它是一个正在为真实用户交付真实产品的生产系统。

更重要的是，这个范式正在快速扩散：

Martin Fowler（ThoughtWorks） 发了专题文章，用控制论框架分析 Harness Engineering
LangChain 从 Agent 架构角度重新定义了 Harness
Anthropic 分享了 Scaling Managed Agents 的经验
张汉东 写了《驾驭工程》（别名《马书》）------从 Claude Code 源码中提炼 AI 编码最佳实践，30 章 7 篇
deusyu 建了 harness-engineering 学习指南------19 篇文章深度摘要 + 12 篇专业翻译

它已经从一个公司的内部实践，扩散成软件工程范式的一次根本性转变。

写在最后

如果你是一个工程师，读到这篇文章，你的第一反应可能是焦虑------"AI 要取代我了"。

但 OpenAI 的实验恰恰说明相反的事：工程师变得更重要了，只是做的事情不一样了。

100 万行代码，3 个人，不写一行代码。他们做的事比写代码更高级------设计让 AI 能可靠工作的系统。

这就是 Harness Engineering。

人类掌舵，智能体执行。

这个实验完成于 2026 年初，产品已经在跑。没有预言，只有事实。

这是 Harness Engineering 系列的第一篇。下一篇我们聊：AGENTS.md 到底怎么写------给智能体的"入职手册"怎么设计。

💡 觉得有启发？点个在看，转发给还在手写代码的同事------范式变了，越早知道越好。