AI 时代最火的新岗位,不是提示词工程师,而是 Harness 工程师

大家后,我是舒一笑不秃头,喜欢写作和分享,更多精彩内容

这两个月,技术圈里一个词突然开始高频出现:

Harness Engineering(Harness 工程)

很多人第一反应是:

"这是不是 Harness 那家 DevOps 公司提出来的概念?"

"这是不是 Prompt Engineering 的新说法?"

"这是不是给 Agent 接点工具就行了?"

都不是。

这个词之所以突然火起来,是因为 OpenAI 和 Anthropic 这类一线 AI 公司,开始反复强调一件事:

当模型越来越强,真正拉开差距的,已经不是模型本身,而是你怎么把它接进真实工程系统里。 OpenAI 在 2026 年 2 月发布的文章里,直接把这个主题命名为 Harness engineering ;Anthropic 在 2025 年末和 2026 年 3 月的工程文章里,也连续强调 harness design 对长时运行 agent 的关键作用。 (OpenAI)

所以今天这篇文章,我就讲清楚三件事:

  1. Harness 工程到底是什么
  2. 它为什么会在 AI 时代爆火
  3. 它和 Prompt Engineering、Agent Engineering、平台工程、DevOps 到底有什么区别

一句话先讲明白:什么是 Harness 工程?

你可以先记住这个定义:

Harness 工程,就是把"大模型的能力"驯化成"稳定生产力"的工程。

模型很聪明,不代表它能在真实业务里可靠工作。

一个 AI agent 真正进入工程体系之后,会立刻遇到这些问题:

  • 它能看到哪些上下文?
  • 它能调用哪些工具?
  • 哪些命令可以执行,哪些绝对不能碰?
  • 它做完一步之后,如何验证结果对不对?
  • 失败了怎么回滚?
  • 什么时候必须交给人类审批?
  • 它的行为如何审计?

这些问题,都不是模型问题,而是 Harness 工程问题。

所以业内常说一句非常形象的话:

Agent = Model + Harness

模型负责"会不会",

Harness 负责"能不能稳定、安全、可控地干活"。

Anthropic 也明确指出,前沿 agent coding 的表现,越来越依赖 harness design,而不是只靠更强的模型。 (Anthropic)


为什么它突然火了?

因为大家都发现了一个残酷现实:

同一个模型,放在不同的工程环境里,表现差距可能大得离谱。

OpenAI 在介绍他们如何在"agent-first"世界里使用 Codex 时,重点讲的并不是"模型多强",而是:

  • 代码仓库怎么组织,才能让 agent 更容易理解
  • 为什么要把 repo 作为 record system
  • 为什么要写 AGENTS.md
  • 为什么上下文是稀缺资源,不能胡乱堆信息
  • 为什么要把浏览器调试能力、可观测性工具接进 agent runtime
  • 为什么要让 agent 能复现 bug、验证修复、录制结果,再去发起 PR

这些都说明一个事实:

模型能力已经不是唯一瓶颈,系统设计才是。 (OpenAI)

换句话说,以前大家在卷"模型够不够聪明",现在开始卷的是:

"你有没有办法让这个模型,在真实软件工程流程里持续产出价值。"

这就是 Harness 工程爆火的根本原因。


Harness 工程不是 Prompt Engineering 的升级版

很多人第一次听到这个词,会误以为它只是"高级提示词工程"。

其实差别非常大。

Prompt Engineering 关心的是:

  • 提示词怎么写
  • 一次对话怎么问得更准
  • 单轮输出怎么更好

Harness Engineering 关心的是:

  • agent 如何在长流程里持续工作
  • 如何给它上下文、工具、权限和反馈
  • 如何让它在真实工程里可验证、可审计、可恢复
  • 如何让它做完任务,而不是只回答一个问题

所以:

Prompt Engineering 优化的是"回答质量"
Harness Engineering 优化的是"任务完成率和系统可靠性"

这两者不是一个层级的东西。


Harness 工程,本质上在做什么?

如果把它拆开看,Harness 工程其实就是在搭一整套 AI 工作底座

1. 给 Agent 设定清晰任务边界

你不能只跟 agent 说一句:

"去把这个 bug 修了。"

你得告诉它:

  • 只能改哪些目录
  • 不能动哪些模块
  • 成功标准是什么
  • 必须通过哪些测试
  • 哪些操作需要人工确认

比如:

  • 只能修改 services/order
  • 不允许改数据库 schema
  • 必须通过单测和 lint
  • 不能直接 merge 到主分支

这就是 Harness。

因为没有边界的 agent,不叫智能体,叫事故制造机。


2. 给 Agent 喂"正确"的上下文

OpenAI 在文章里特别强调:

上下文是一种稀缺资源。

不是你给得越多越好,给错了、给杂了,agent 反而会优化错方向。 (OpenAI)

所以 Harness 工程要解决的不是"怎么塞更多上下文",而是:

  • 哪些文档必须给
  • 哪些历史 PR 值得参考
  • 哪些规范是最新的
  • 哪些信息已经过期
  • 如何把上下文组织成 agent 真能消费的结构

这就是为什么很多团队开始重视:

  • 更清晰的 repo 结构
  • 更明确的模块边界
  • 给 agent 写专用说明文件
  • 把知识从"散落的聊天记录"变成"结构化可消费文档"

3. 给 Agent 接工具,但不是无限放权

这是最容易被误解的一点。

很多团队一上来就想:

"给它接个 shell,给它 kubectl,给它数据库查询权限,不就能干活了吗?"

错。

真正的 Harness 工程不是"给 agent 尽可能多的能力",而是:

给它刚刚好的能力,并且严格受控。

比如一个运维观测场景里,正确的问题不是:

"Agent 会不会用 kubectl?"

而是:

  • 给不给它 kubectl?
  • 只允许 get/list/logs,还是连 exec 也放开?
  • 能不能查 secrets
  • 能不能跨 namespace?
  • 能不能访问生产环境?
  • 是否需要短期 token?
  • 是否有操作审计?

这时候你做的,已经不是"提示词工程"了,而是 Harness 工程


4. 给 Agent 建反馈回路

人类工程师之所以能不断修正,是因为我们每做一步都有反馈:

  • 测试挂了
  • 页面渲染错了
  • 日志里还有异常
  • 构建失败了
  • 指标没下降
  • 回归没通过

Agent 也一样。

OpenAI 提到,他们把浏览器调试能力、DOM snapshot、截图、导航能力,以及 observability tooling 接入 agent runtime,让 agent 不只是"生成代码",而是能复现问题、验证修复、再提交结果 。 (OpenAI)

这件事非常重要。

因为没有反馈的 agent,本质上是在盲飞。

它不是在解决问题,它是在连续猜测。


5. 给 Agent 装护栏,而不是给它自由

Harness 工程最核心的一层,其实是控制

要控制什么?

  • 不能删资源
  • 不能读敏感数据
  • 不能直接发版
  • 不能越过审批
  • 不能跳过测试
  • 不能碰生产配置
  • 不能在未授权场景执行高危命令

如果说模型像发动机,

那 Harness 就是方向盘、刹车、限速器、安全气囊。

没有这些东西,模型越强,风险越大。


6. 设计"什么时候必须交还给人"

这也是很多人忽略的一点。

Harness 工程不是为了追求"100% 全自动"。

恰恰相反,成熟的 Harness 工程会非常明确地规定:

哪些事 agent 可以自己做,哪些事必须让人拍板。

例如:

  • 多方案取舍,交给人
  • 高风险变更,交给人
  • 线上事故定责,交给人
  • 涉及权限开通,交给人
  • 涉及成本和业务决策,交给人

这才是真正可落地的人机协作。


一个特别好懂的类比:AI 不是员工,Harness 才是管理体系

很多人现在对 AI 的期待,是把它当成一个"超级工程师"。

但更准确的理解应该是:

AI 更像一个执行能力很强、速度很快、知识很广,但边界感很差的新同事。

它需要的不是更多鼓励,而是完整的管理体系:

  • 岗位说明书
  • 权限系统
  • 工具系统
  • 代码规范
  • 评审流程
  • 测试体系
  • 审计机制
  • 升级路径

这个管理体系,就是 Harness。

所以可以再说得更直白一点:

Harness 工程,本质上是 AI 员工的组织管理工程。


它和 Agent Engineering、平台工程、DevOps 有什么区别?

这是最容易混淆的地方。

和 Agent Engineering 的区别

Agent Engineering 更偏"怎么做一个 agent 产品":

  • 任务拆解
  • memory
  • planning
  • tool calling
  • multi-agent
  • interaction

Harness Engineering 更偏"怎么让 agent 在真实系统里稳定工作":

  • 权限
  • 上下文供给
  • 工具接入
  • 验证
  • 审计
  • 安全边界
  • 人机切换

你可以理解为:

Agent Engineering 更偏智能体能力设计
Harness Engineering 更偏智能体运行环境设计


和平台工程的区别

平台工程关注的是:

  • 开发者平台
  • CI/CD
  • 可观测性
  • 自助服务
  • 标准化研发底座

Harness 工程有点像平台工程在 AI 时代的一个新分支。

因为它也是在做平台,但服务对象从"人类工程师"扩展到了"AI agent"。

以前平台工程是服务开发者,

现在 Harness 工程是服务开发者 + 智能体。


和 DevOps 的区别

DevOps 强调的是:

  • 开发和运维协同
  • 自动化交付
  • 持续集成与部署
  • 更快更稳定的软件交付

Harness 工程则是在此基础上多了一层:

如何让 AI 参与并接管其中一部分流程,而且还能保持可控。

你甚至可以说:

Harness 工程 = DevOps + 平台工程 + AI Agent 运行控制


为什么说它会成为未来 2 年最值钱的工程能力之一?

因为接下来真正有壁垒的,不是"谁会调用模型 API"。

而是:

谁能把模型真正接进组织生产系统,并稳定地产出结果。

这件事的难度,远远高于"接个对话框"。

未来团队之间的差距,很可能不是:

  • 谁用了更大的模型

而是:

  • 谁给模型准备了更好的工作环境
  • 谁把上下文组织得更好
  • 谁的工具链更可控
  • 谁的验证机制更闭环
  • 谁的审计、权限、回滚做得更严密

OpenAI 和 Anthropic 最近公开分享的工程经验,本质上都在指向同一个趋势:

Agent 的上限,越来越取决于 Harness。 (OpenAI)


一个你一定会遇到的误区:把 Harness 工程做成"万能接口拼装"

很多团队会在这个阶段踩坑:

"我们已经给 agent 接了代码库、日志、监控、Shell、数据库、工单系统,所以我们也在做 Harness 工程了。"

不一定。

因为真正的 Harness 工程,不是"把工具全接上",而是:

  • 工具有没有权限边界?
  • 输出有没有校验?
  • 操作有没有审计?
  • 高危行为有没有熔断?
  • 上下文会不会污染?
  • 失败后能不能恢复?
  • 模型是不是在错误反馈里越跑越偏?

所以 Harness 工程的核心不是连接能力 ,而是控制能力


最后一句话总结

如果你非要让我把 Harness 工程浓缩成一句最适合传播的话,那就是:

Prompt Engineering 解决的是"AI 怎么回答更好",Harness Engineering 解决的是"AI 怎么真正把活干好"。

或者再狠一点:

模型决定 AI 聪不聪明,Harness 决定 AI 能不能上生产。

这就是它最近爆火的原因。

因为从今年开始,越来越多团队已经意识到:

AI 时代真正的工程护城河,不只是模型能力,而是 Harness 能力。


接下来真正会拉开团队差距的,可能不是谁先接入 AI,而是谁先把 Harness 工程做好。

你们团队现在更像是:
"把 AI 当聊天工具" ,还是已经开始建设 "AI 的工作底座" 了?

相关推荐
明月醉窗台2 小时前
[jetson] AGX Xavier 安装Ubuntu18.04及jetpack4.5
人工智能·算法·nvidia·cuda·jetson
青稞社区.2 小时前
从最基础的模型出发,深度剖析高性能 VLA 的设计空间
人工智能·agi
夜猫逐梦2 小时前
【AI】 Claude Code 源码泄露:一场关于安全与学习的风波
人工智能·安全·claude code·源码泄漏
浔川python社2 小时前
更多人工智能出现,会带来哪些利与弊
人工智能
stereohomology2 小时前
大语言模型的认知边界 & 在认知边界处的系统性崩溃
人工智能·语言模型·自然语言处理
羊羊小栈2 小时前
基于「YOLO目标检测 + 多模态AI分析」的智慧农业茶叶病害检测预警系统
人工智能·yolo·目标检测·计算机视觉·毕业设计·大作业
搜狐技术产品小编20232 小时前
智能代码审查基于大语言模型的自动化代码质量保障平台设计与实践
运维·人工智能·语言模型·自然语言处理·自动化
云烟成雨TD2 小时前
Spring AI 1.x 系列【26】结构化输出执行流程
java·人工智能·spring
清空mega2 小时前
动手学深度学习——物体检测
人工智能