开源与第三方视角:Thoughtworks、LangChain等如何看待Harness Engineering?

摘要:本文整合行业对OpenAI Harness Engineering论文的反馈与解读。从Thoughtworks技术雷达的深度分析入手,解析Birgitta Böckeler对Harness三大核心组件的提炼;呈现LangChain的关键实验数据------同一模型更换Harness,效能飙升26%,排名从Top30冲进Top5;探讨Martin Fowler对Harness将成为未来"服务模板"的预测;同时直面争议:这种模式对遗留系统是否适用?Harness Engineering究竟是解放还是新的枷锁?最后,从社区实践出发,提出团队可以逐步采纳的"Harness成熟度梯度"。


引言:当OpenAI的"疯狂实验"成为行业焦点

2026年初,OpenAI的《Harness Engineering》论文发布后,迅速在技术界引发震动。这不仅因为它描述了一场"零手工代码"的极限实验,更因为它提出了一个系统化的方法论------如何让AI智能体在人类驾驭下,可靠、高效地构建大规模软件系统

但任何新范式都需要经受同行评审和实践检验。Thoughtworks、LangChain、Martin Fowler等第三方机构和专家如何看待Harness Engineering?他们的分析、质疑和数据,为我们提供了更立体的视角。

本文将整合这些外部声音,揭示Harness Engineering的行业反响,探讨其潜力与边界,以及它对未来软件工程的深远影响。

一、Thoughtworks的深度剖析:Harness的三个核心组件

Thoughtworks的技术雷达一直是软件行业的风向标。其首席咨询师Birgitta Böckeler在Martin Fowler的博客上发表了一篇深度分析,将Harness Engineering提炼为三个核心组件:

1.1 上下文工程(Context Engineering)

第一个组件是持续增强的代码库知识库 ,加上智能体对动态上下文的访问能力。

Böckeler指出,OpenAI团队不仅构建了结构化的docs/目录,还让智能体能够通过Chrome DevTools Protocol直接"看"到应用程序的运行状态,通过可观测性栈查询日志和指标。这种对动态上下文的访问,是智能体实现自主验证和修复的关键。

"让智能体能够'看到'应用程序在运行时的真实状态------这超越了传统的静态文档,是Harness Engineering的一大创举。"

1.2 架构约束(Architectural Constraints)

第二个组件是确定性的架构规则,由自定义Linter和结构测试强制执行。

OpenAI团队围绕严格的依赖方向(Types→Config→Repo→Service→Runtime→UI)构建系统,并通过Codex生成的Linter检查违规。Böckeler强调,这种"机械化约束"将人类的设计决策转化为法律般的规则,让智能体在安全的边界内自由奔跑。

"提高信任和可靠性需要约束解决方案空间:特定的架构模式、强制的边界、标准化的结构。这意味着要放弃一些'生成任何东西'的灵活性,用规则和充满技术细节的'马具'来换取可控性。"

1.3 垃圾回收(Garbage Collection)

第三个组件是定期运行的智能体,发现文档中的不一致或架构约束的违规,对抗熵和腐烂。

"文档园丁"是这一组件的典范:它不知疲倦地扫描文档库,比对代码实现,自动发起修复PR。Böckeler认为,这种"反熵机制"在AI驱动的开发中至关重要------因为技术债务会被指数级放大,必须持续清理。

1.4 对遗留系统的思考

Böckeler也提出了一个现实问题:这种模式对遗留系统是否适用?

OpenAI的实验是从空仓库开始的"绿地项目"。对于已有数百万行代码、架构混乱的"棕地系统",引入Harness Engineering需要付出巨大努力。她建议团队可以逐步采纳,例如先为关键模块建立架构约束,再逐步扩展到整个系统。

"你今天的Harness是什么?你有pre-commit钩子吗?你有自定义Linter的想法吗?你尝试过ArchUnit这样的结构测试框架吗?"------这些问题将AI采用从"二元选择"变成了"成熟度梯度。"

二、LangChain的实证数据:换Harness不换模型,效能提升26%

如果说Thoughtworks的分析是定性的,那么LangChain的实践则提供了定量的证据

2.1 实验设计

LangChain团队在2026年2月进行了一项关键实验:他们使用同一个模型(GPT-5.2-Codex),但修改了外围的"Harness"(上下文、工具、约束),然后在Terminal Bench 2.0(一个衡量智能体终端操作能力的基准)上进行测试。

2.2 惊人的结果

结果令人震惊:

  • 原始Harness得分:52.8,排名Top30
  • 优化Harness得分 :66.5,飙升26%,排名直接冲进Top5

马还是那匹马,换副马鞍,结果天差地别。 这个实验有力地证明了Harness Engineering的价值------不是模型本身,而是围绕模型的"驾驭系统"决定了最终效能。

2.3 关键改进点

LangChain团队分享了他们优化的几个方向:

  1. 更好的工具定义:让智能体更容易理解每个工具的用途和限制
  2. 更清晰的反馈循环:当工具调用失败时,提供结构化错误信息,帮助智能体自我修复
  3. 多智能体评审:引入额外的评审智能体,在提交前发现潜在问题
  4. 渐进式上下文:不是把所有信息塞给智能体,而是让它在需要时主动检索

这些改进与OpenAI的经验高度一致:环境设计比模型能力更重要

三、Martin Fowler的预测:Harness将成为未来的"服务模板"

Martin Fowler本人也对Harness Engineering发表了评论,他认为这不仅是AI开发的方法论,更可能成为未来软件工程的**"服务模板"**。

3.1 从"库"到"模板"的演进

Fowler回顾了软件工程的历史:最初我们共享代码库,后来共享框架和库,再后来共享微服务模板(如Spring Initializr)。Harness Engineering代表了一种新的共享单元------整个开发环境的模板

"想象一下,未来你启动一个新项目时,不仅会选择一个技术栈,还会选择一个'Harness'------一套为AI智能体设计的开发环境、架构约束和协作流程。这个Harness可以来自开源社区,也可以来自商业提供商。"

3.2 标准化与差异化

Fowler认为,Harness的标准化将带来两大好处:

  • 降低采纳门槛:团队可以直接复用经过验证的Harness,而不必从零摸索
  • 促进最佳实践传播:优秀的架构约束、文档组织、反馈循环可以像代码一样被共享

同时,团队也可以根据自身需求定制Harness,形成差异化竞争力。

3.3 对开发者角色的影响

Fowler延续了OpenAI的观点:开发者将从"代码编写者"转变为"Harness设计者"。未来的核心竞争力不是掌握多少编程语言,而是设计让AI高效工作的环境的能力

"那些只擅长写代码的人可能会被边缘化,而那些懂得如何'驾驭'AI的人将成为新时代的架构师。"

四、社区实践:从LangChain到Dapr的生态探索

除了Thoughtworks和LangChain,更广泛的社区也在探索Harness Engineering的落地。

4.1 LangChain的"Harness即代码"

LangChain不仅做了实验,还开始将Harness组件代码化。他们开发了:

  • LangSmith集成:用于追踪智能体行为,自动分析错误模式
  • Trace Analyzer技能:让智能体自己分析追踪数据,发现改进机会
  • Harness模板库:共享各种场景下的Harness配置(如Web开发、数据分析、DevOps)

这些工具让Harness Engineering从"论文概念"变成了"可复用的实践"。

4.2 Dapr的A2A协议增强

Diagrid团队(Dapr的核心维护者)展示了如何用Dapr填补A2A协议留下的空白。A2A规范将认证、可观测性、弹性等"留给企业实践",而Dapr提供了:

  • mTLS加密:自动管理证书,加密所有智能体间通信
  • OAuth2/OIDC中间件:处理用户认证和授权
  • OpenTelemetry集成:自动捕获追踪、指标、日志
  • 弹性策略:重试、超时、熔断器,让智能体交互自愈

这相当于为智能体协作构建了一个企业级的"通信底座"

4.3 开源Harness的萌芽

社区已经开始涌现开源的Harness项目。例如:

  • AgentHarness:一个轻量级框架,用于定义智能体的工具、约束和反馈循环
  • DocGardener:基于OpenAI"文档园丁"的开源实现,自动维护文档一致性
  • ArchTest:结构测试库,用代码测试架构约束

这些项目预示着Harness Engineering正在从"前沿研究"走向"工程实践"。

五、争议与反思:Harness Engineering是解放还是枷锁?

任何新范式都会引发争议。Harness Engineering也不例外。

5.1 争议一:约束 vs 创造力

批评者认为,Harness Engineering通过严格的架构约束和规则,扼杀了AI的创造力。如果智能体只能按照预设的框架生成代码,那它和模板引擎有什么区别?

支持者的回应是:创造力需要边界。没有边界的自由只会导致混乱和不可维护性。正如一位开发者所言:"真正的创造力是在约束中寻找最优解,而不是毫无章法地堆砌代码。"

5.2 争议二:对遗留系统的适用性

如前所述,Harness Engineering在绿地项目中表现出色,但对棕地系统呢?大多数企业面临的是已有数百万行代码、架构混乱的遗留系统。引入Harness意味着:

  • 需要投入大量精力重构架构
  • 可能需要重写大量代码以适应约束
  • 团队需要学习全新的工作方式

对此,Thoughtworks的建议是渐进式采纳:从最关键的模块开始,逐步建立约束和文档,让Harness与遗留系统共存,而不是一次性推翻重来。

5.3 争议三:工程师的"去技能化"

最深刻的担忧是:当AI承担了编码工作,工程师的技能会不会退化? 如果工程师长期不写代码,他们的技术深度会不会下降?

OpenAI的回应是:工程师的角色不是消失了,而是向价值链上游移动。他们不再被琐碎的编码细节淹没,而是专注于设计、决策、判断------这些恰恰是更高价值的技能。一位参与实验的工程师说:"我反而学到了更多,因为我现在必须深入理解系统的架构和约束,才能设计出好的Harness。"

5.4 争议四:谁是真正的"作者"?

当百万行代码都由AI生成,代码的著作权属于谁 ?如果出现Bug导致生产事故,责任由谁承担?这些法律和伦理问题尚未有明确答案。

有观点认为,人类工程师作为"驾驭者",应当对AI生成的内容负责------就像管理者对团队的工作负责一样。但这在现有法律框架下仍需进一步厘清。

六、Harness成熟度梯度:从0到5的实践路径

基于多方观点,我们可以勾勒出一条Harness采纳的成熟度路径

级别 名称 特征
0级 临时Prompt 开发者在需要时写提示词让AI生成代码,无系统化环境
1级 基础文档 有简单的AGENTS.md,但文档与代码脱节,智能体依赖人类反馈
2级 结构化知识库 建立模块化的docs/目录,入口文档+详细文档,智能体能主动查阅
3级 机械化约束 引入自定义Linter和结构测试,强制执行架构规则
4级 可观测性集成 智能体可访问运行态信号(日志、指标、UI),实现自我验证
5级 垃圾回收 定期运行反熵智能体,自动维护文档和代码一致性

大多数团队目前处于0-1级。OpenAI的实验达到了4-5级,LangChain的优化实验也接近4级。对于希望采纳Harness的团队,可以逐步升级,每一步都能带来实实在在的效率提升。

七、结语:Harness Engineering的时代意义

从Thoughtworks的深度剖析,到LangChain的实证数据,再到Martin Fowler的宏大预测------第三方视角让我们看到,Harness Engineering不仅仅是OpenAI的一次内部实验,而是软件工程范式演进的重要里程碑

它揭示了AI时代的一个核心真理:模型的能力只是起点,围绕模型的"驾驭系统"才是决定最终效能的关键。当模型本身逐渐商品化(开源模型性能逼近闭源模型),团队的核心竞争力将越来越依赖于他们为AI设计的Harness。

当然,Harness Engineering不是银弹。它对绿地项目效果显著,但对遗留系统需要渐进式采纳;它解放了工程师的双手,但也要求他们向更高层次的思维跃迁;它提升了效率,但也带来了新的治理挑战。

但有一点是确定的:拒绝Harness的团队,将在AI时代的开发竞赛中逐渐落后。而那些懂得如何"驾驭"AI的团队,将成为未来十年最具生产力的组织。

正如Martin Fowler所言:"Harness Engineering不是关于AI能做什么,而是关于人类希望AI做什么,以及如何确保它做对。"


下一篇预告 :《是解放还是终结?Harness Engineering对软件工程师未来的深远影响》

我们将直面最核心的问题:当代码编写完全交由AI,软件工程师的出路在哪里?是失业危机,还是价值重塑?敬请期待。


欢迎在评论区分享你的看法:你的团队目前处于Harness成熟度的哪一级?

相关推荐
rundreamsFly2 小时前
开源智能体 XAgent:企业级的智能化执行引擎,从任务描述到自动执行(内含CoPaw OpenClaw对比)
开源·xagent
FIT2CLOUD飞致云2 小时前
操作教程 | DataEase基于插件实现数据源与飞书多维表格的对接
数据分析·开源·数据可视化·dataease·bi
武汉知识图谱科技2 小时前
超越预测性维护:基于知识超图与根因推理的能源电力“免疫系统”构建
人工智能·物联网·langchain·能源·知识图谱·embedding
a1117763 小时前
堆叠式流程图编辑器(html 开源)
开发语言·前端·javascript·开源·编辑器·html·流程图
bkspiderx3 小时前
MQTT C/C++开源库全解析:从嵌入式到高并发场景的选型指南
c语言·c++·mqtt·开源·开源库
西西弗Sisyphus4 小时前
使用 langchain 的 PromptTemplate 处理多变量提示词
langchain·agent
悟空码字4 小时前
一款免费开源的进销存 + 财务 + 生产 ERP 系统,支持 SaaS 模式与权限管理
开源·erp系统·saas系统
Monly214 小时前
大模型:LangChain调用大语言模型
人工智能·语言模型·langchain