3 个人,100 万行代码,一行都没人写:OpenAI 的 Harness Engineering 实验

2026 年 2 月,OpenAI 发了一篇文章,悄悄改写了"工程师"这个职业的定义。


一切的起点

2025 年 8 月,OpenAI 内部一个小团队做了一个疯狂的实验:从零开始构建一款软件产品,一行代码都不许人写。

所有代码------应用逻辑、测试、CI 配置、文档、监控、内部工具------全部由 Codex(OpenAI 的 AI 编码智能体)生成。

五个月后,结果出来了:

  • 100 万行代码
  • 1,500 个 Pull Request
  • 推动这一切的,最初只有 3 名工程师(后来扩展到 7 名)
  • 人均每天处理 3.5 个 PR,而且还在加速
  • 完成时间约为手工编写的 1/10

这个产品不是玩具------它有内部日常活跃用户,有外部 Alpha 测试者,经历过上线、出故障、修 bug 的完整生命周期。

OpenAI 把这个实验中总结出的工程范式命名为:Harness Engineering(驭缰工程)


一个令人震惊的数据

LangChain 引用了 Terminal Bench 2.0 的基准测试数据:

同一个模型(Opus 4.6),在 Claude Code 的 harness 中排第 33 名,换一个 harness 直接排到第 5。

纯 harness 优化可以把排名从 Top 30 拉到 Top 5。

这意味着什么?你不一定需要更强的模型,你可能只是需要更好的 harness。

这就像同一匹马,换个骑手和缰绳,成绩天差地别。


核心转变:从写代码到设计约束

传统的软件工程是这样的:

bash 复制代码
人类写代码 → 机器执行代码

Harness Engineering 是这样的:

bash 复制代码
人类设计约束 → 智能体写代码 → 机器执行代码

工程师的产出不再是代码,而是约束系统。

什么是约束系统?包括但不限于:

  • AGENTS.md --- 告诉智能体"这个仓库长什么样、怎么工作"的导航文件
  • 架构规则 --- 依赖方向、分层约束、边界定义
  • 自定义 Linter --- 把编码规范变成可机械执行的检查
  • 反馈回路 --- 让智能体能自己验证工作成果
  • 结构化文档 --- 设计决策、执行计划、技术债追踪

人类掌舵,智能体执行。

Copilot 时代是"用 AI 辅助写代码"。Harness Engineering 直接翻篇:让 AI 完全写代码,人类负责让 AI 写对。


六大核心概念

OpenAI 在实践中总结了六条关键经验。每一条都颠覆了传统认知。

1. 仓库即记录系统

不在仓库里的东西,对智能体不存在。

Slack 讨论里的决策?不存在。Google Docs 里的设计文档?不存在。你脑子里的经验?更不存在。

智能体能看到的,只有仓库里的文件。 所以一切决策、规范、计划都必须以版本化工件提交到仓库。

这就像一个新入职的同事------他看不到你脑子里在想什么,只能看你写下来的东西。区别是,这个"同事"每次对话都是全新的,没有记忆延续

2. 地图而非手册

OpenAI 一开始试了"一个超大的 AGENTS.md",结果惨败:

  • 挤占上下文 --- 巨大的指令文件把任务相关的代码和文档挤出去了
  • 等于没说 --- 当一切都"重要",一切都不重要了
  • 立即腐烂 --- 庞杂的手册变成陈旧规则的坟场
  • 无法验证 --- 单个大 blob 不适合做机械检查

解决方案:AGENTS.md 约 100 行,当目录页用,指向更深层的文档。

渐进式披露------智能体从小入口开始,被引导到下一步该看什么。

3. 机械化执行

文档会腐烂,lint 规则不会。

OpenAI 把编码规范写成了自定义 linter。而且,他们在 linter 的错误信息里嵌入了修复指令------智能体看到报错,就知道怎么修。

Martin Fowler 在文章中也提到,一些团队用 AI 来生成自定义 linter------用智能体来写约束智能体的规则。

核心原则:能用代码表达的约束,绝不只写在文档里。

4. 智能体可读性

为智能体优化代码的可读性,优先于为人类优化。

具体做法包括:

  • 选择"无聊"的技术------API 稳定、训练集覆盖好、行为可预测
  • 有时候重新实现一个子集比包装复杂的第三方库更划算
  • 让应用可以按 git worktree 启动,这样智能体每次任务都能在一个独立实例上工作
  • 把 Chrome DevTools 协议接入智能体,让它能看到 UI、复现 bug、验证修复

5. 吞吐量改变合并理念

传统工程里,PR 审查是严肃的事,测试失败必须修好才能合并。

在 Harness Engineering 的世界里,智能体吞吐量远超人类注意力:

  • PR 生命周期很短
  • 测试偶发失败通过后续重跑解决
  • 纠错成本低,等待成本高

在低吞吐量环境里这不负责。在智能体高速运转的系统里,这是正确策略。

6. 熵管理 = 垃圾回收

技术债是高息贷款,要每天小额偿还,别让它滚雪球。

智能体会复现仓库里已有的模式------包括坏模式。如果不主动清理,代码质量会越来越差。

OpenAI 的做法:

  • 把"黄金原则"编码到仓库中
  • 定期运行后台 Codex 任务,扫描偏差、更新质量评分、发起重构 PR
  • 大多数重构 PR 可以在一分钟内审查并自动合并

把技术债当成信用卡------每天小额还款,别让它滚雪球。


精确定义:Agent = Model + Harness

来自 LangChain、Martin Fowler 和 HumanLayer 的综合定义:

裸模型不是智能体。它只接受文本,输出文本。

当 Harness 给它状态、工具、反馈回路和可执行约束时,它才成为智能体。

Harness(缰绳/驾驭系统)= 模型之外的一切代码、配置和执行逻辑。包括:

组件 作用
System Prompts AGENTS.mdCLAUDE.md --- 智能体的"入职手册"
Tools & MCP 扩展智能体能力的工具和协议
Skills 渐进式加载的知识包
沙箱基础设施 文件系统、浏览器、隔离执行环境
编排逻辑 子智能体生成、任务分发、模型路由
Hooks/中间件 compaction、续接、lint 检查
背压机制 测试/构建/类型检查 = 自我验证回路

Martin Fowler 用了一个 2×2 矩阵来描述这些组件如何协同:

确定性(CPU) 语义性(LLM)
前馈(引导) bootstrap 脚本、LSP、OpenRewrite AGENTS.md、Skills、architecture.md
反馈(感知) linter、类型检查、覆盖率 AI code review、LLM-as-judge

前馈在智能体行动之前引导它,反馈在行动之后观察和纠正。两者缺一不可。


工程师的角色变了

在 Harness Engineering 的世界里,工程师做什么?

不再做:

  • ❌ 手写代码
  • ❌ 逐行 code review
  • ❌ 手动调试
  • ❌ 维护文档

转而做:

  • ✅ 设计环境和架构约束
  • ✅ 编写和维护 AGENTS.md
  • ✅ 把规范转化为可执行的 linter 规则
  • ✅ 构建反馈回路(测试、CI、自动化验证)
  • ✅ 管理智能体的上下文和工具
  • ✅ 在智能体卡住时识别"缺了什么",补充进去

工程师的工作重心从"执行"变成了"设计让执行可靠的系统"。


Ralph Wiggum 循环:Harness Engineering 的核心实现

OpenAI 在实践中采用了 "Ralph Wiggum 循环"模式(名字来自 LangChain):

这个循环的关键特征:

  • Fresh Context --- 每次迭代重新读取上下文,不会积累错误
  • Backpressure --- 不规定怎么做,但门控拒绝坏结果
  • The Plan Is Disposable --- 计划随时可以重来,成本很低
  • Disk Is State, Git Is Memory --- 文件是交接机制,git 是记忆
  • Let Ralph Ralph --- 坐在循环上,不坐在循环里

单次运行经常持续 6 小时以上------通常在人类睡觉的时候跑,第二天起来看结果。


这场范式转移已经在发生

OpenAI 的这个实验不是实验室演示。它是一个正在为真实用户交付真实产品的生产系统

更重要的是,这个范式正在快速扩散:

  • Martin Fowler(ThoughtWorks) 发了专题文章,用控制论框架分析 Harness Engineering
  • LangChain 从 Agent 架构角度重新定义了 Harness
  • Anthropic 分享了 Scaling Managed Agents 的经验
  • 张汉东 写了《驾驭工程》(别名《马书》)------从 Claude Code 源码中提炼 AI 编码最佳实践,30 章 7 篇
  • deusyu 建了 harness-engineering 学习指南------19 篇文章深度摘要 + 12 篇专业翻译

它已经从一个公司的内部实践,扩散成软件工程范式的一次根本性转变


写在最后

如果你是一个工程师,读到这篇文章,你的第一反应可能是焦虑------"AI 要取代我了"。

但 OpenAI 的实验恰恰说明相反的事:工程师变得更重要了,只是做的事情不一样了。

100 万行代码,3 个人,不写一行代码。他们做的事比写代码更高级------设计让 AI 能可靠工作的系统

这就是 Harness Engineering。

人类掌舵,智能体执行。

这个实验完成于 2026 年初,产品已经在跑。没有预言,只有事实。


这是 Harness Engineering 系列的第一篇。下一篇我们聊:AGENTS.md 到底怎么写------给智能体的"入职手册"怎么设计。

💡 觉得有启发?点个在看,转发给还在手写代码的同事------范式变了,越早知道越好。

相关推荐
辞辞辞1 小时前
江苏正分科技:一站式碳酸锂提锂整套解决方案,引领湿法提锂行业革新
大数据·人工智能·科技
钓了猫的鱼儿1 小时前
基于深度学习+AI的秸秆目标检测与预警系统(Python源码+数据集+UI可视化界面+YOLOv11训练结果)
人工智能·深度学习·目标检测
人月神话-Lee1 小时前
【图像处理】颜色空间——RGB之外的世界
图像处理·人工智能·ios·ai编程·swift·rgb·颜色空间
AdCj31 小时前
GitHub 日榜速递 (2026-06-08):AI 基础设施正在“下沉“(技术分析版)
人工智能·github·agent
CJH(本人账号)1 小时前
AI Agent 安全危机:当你的“智能助手“变成攻击者的“远程武器“
网络·人工智能·安全·ai·开源·github
泠不丁1 小时前
AI 生活化应用设计:健康管理的智能助手产品化实践
人工智能
o561路6o623o71 小时前
陈,智能热板仪 大鼠热板仪 小鼠热板仪
人工智能
winfredzhang1 小时前
用 Node.js + SQLite + 原生前端写一个本地情绪急救 Web App:情绪降落伞 Mood Parachute
前端·sqlite·node.js·express·情绪管理
天磊卫士(深圳)科技有限公司1 小时前
2026 年 AI 企业评测:算法备案与大模型备案服务公司高通过率机构推荐参考
人工智能