Harness Engineering 到底是什么?概念、实战与争议,一次全部讲清楚

本文总结自B站up主马克的技术工作坊Harness Engineering 到底是什么?概念、实战与争议,一次全部讲清楚》:

Harness Engineering(马具工程)是近期 AI 领域出现的一个核心概念,它旨在通过构建一套系统性的支撑架构(Harness/ˈhɑːnɪs/)来约束并引导大模型(Model)。如果说 Prompt Engineering 是解决"怎么问问题",Context Engineering 是解决"怎么给信息",那么 Harness Engineering 则是站在系统高度,通过任务规划、自动化验证、质量评估和技术债清理等手段,将大模型转化为稳定可靠的 Agent,使其在软件开发等复杂场景中真正发挥生产力。

OpenAI官方:harness-engineering(工程技术:在智能体优先的世界中利用 Codex

核心概念演进:三代 AI 工程范式

Prompt Engineering(提示词工程)

研究如何精准组织、优化输入提示词,清晰表达人类需求,让大模型准确理解意图并输出符合预期结果的技术。

Context Engineering(上下文工程)

研究如何管理、优化大模型接收的全部上下文信息,在上下文容量限制下,动态筛选、压缩、补充有效信息。

核心技术有: 上下文压缩、动态外部检索、信息间接披露等。

Harness Engineering ( 驾驭工程 )

Harness 本义为马具 :大模型如同脱缰野马,能力极强但易发散、产生幻觉、偏离任务;Harness 就是约束、驾驭、规范大模型的整套系统框架Harness Engineering围绕大模型搭建完整、稳定、可控 Agent 系统的工程方法论;不研究模型本身,专注模型之外所有配套体系的设计、构建、优化与运维。

三代范式层级关系

工程范式 研究层级 核心关注点 范围扩张
Prompt Engineering 输入层 怎么把问题说清楚 仅单条提示词
Context Engineering 信息层 怎么给模型喂对信息 全上下文信息管理
Harness Engineering 系统架构层 怎么搭建整套运行系统 权限、流程、工具、调度、校验、治理全链路

Harness Engineering

为方便理解,将其分类成三个点:上下文管理验证与反馈技术债清理

上下文管理

早期让 Agent 了解一个项目是把项目所有规范、文档、规则全部塞进一个巨型 agent.md,每次请求都整体喂给大模型。 这种方式有两个致命问题:

  • 内容越多 ,效果越差
  • 文件逐步腐化,无人愿意维护

于是,最佳做法是精简主文件,把 agent.md 压缩到仅约 100 行,只做目录索引,不存放具体业务内容。然后把规范、架构、业务文档分门别类单独存放,用到哪一块,就只给 Agent 加载哪一块内容,精准投喂、避免信息过载。

像这样:

验证与反馈

Agent 拿到充足项目信息写完代码后,要解决自我校验、自动改错的问题才能保证准确率。OpenAI是这么做的,他们给 Codex 配置完备工具能力和skills,Codex就能在任务重随机验证自己的输出。

比如接入 Chrome 开发者工具,让 Agent 能自动截图、查 DOM、模拟用户操作,自主校验 UI 效果,有问题就地修复。

Agent 写完代码后,自动触发代码检查和测试;不合规则直接抛错,错误信息回流给 Agent 自动修改,反复迭代自检,直到完全符合架构和代码规范,全程无需人工参与。

技术债清理

AI Agent 大规模批量生成代码时,容易产生代码冗余、设计不规范、架构违规、命名风格不统一等问题,长期堆积会拖垮整个代码库质量。

OpenAI 的解决思路是自动化垃圾回收式治理

  1. 后台常驻 Codex 定时任务,自动全量扫描代码库,识别不规范、有隐患的代码并自动修复、提交;
  2. 同时增设文档巡检后台任务,定期核对文档与实际代码,自动修正过时、不符的文档内容;
  3. 代码、文档双向常态化维护,不让问题堆积,长期稳定保持项目质量。

Harness Engineering 核心思想

OpenAI官方《工程技术:在智能体优先的世界中利用 Codex》这篇文章重新定义了人类和AI在未来的工作边界,在文章中OpenAI抛出了一个非常关键的断言:人类掌舵。智能体执行。 他们重新定义软件工程师新职责:不用再亲自逐行手写代码、查报错、跑测试,工作重心转变为 为 Agent 搭建稳定可靠的支撑系统、规则框架与 Harness 体系 ,最大化 AI 研发效率。

可见, Harness Engineering 的核心不是让 AI 单纯写代码,而是给 AI 搭建一套能稳定干活的完整运行环境与约束体系

Anthropic的Harness Engineering实战

Anthropic围绕长运行Agent的harness设计,发布了两篇具有延续性的技术文章,形成了从"环境配置"到"架构升级"的完整探索脉络。其核心逻辑可归纳为两大模块:任务规划质量评估

任务规划:从INITIALIZER到Planner的演进之路

第一篇文章中,Anthropic让Agent克隆Claude.ai(类ChatGPT聊天产品)。实验中Agent盲目执行,效果极差:一是急于完成所有功能导致上下文溢出、任务中断;二是多Agent衔接混乱,后续Agent因信息不全误判进度,最终无法达成目标。

核心问题在于缺乏有效任务规划,而harness engineering的价值就是通过机制设计,实现Agent执行过程的可控。

  • 第一版方案:INITIALIZER Agent------初始化环境与需求拆解

针对上述问题,Anthropic引入INITIALIZER Agent,核心作用是初始化执行环境,规避任务混乱。

其核心职责包括拆解需求为可执行功能列表、编写启动脚本、添加进度文件,其中需求拆解是核心,能让执行Agent按功能点稳步推进,解决上下文溢出和衔接问题。

  • 第二版方案:Planner Agent------专注需求拆解的专业化升级

第二篇文章中,Anthropic将INITIALIZER的需求拆解功能剥离,打造专业化Planner Agent,实现任务规划升级。Planner Agent专注于将模糊需求转化为清晰的功能列表(含要求、优先级和验收标准),与执行Agent形成专业分工,提升效率与准确性,增强harness架构适配性。

质量评估

质量评估是harness engineering的核心,需建立闭环机制确保代码产出合格。Anthropic经三次迭代,确定了高效客观的评估方案。

人工评估效率低,Agent自评存在主观滤镜、无法发现自身bug,两者均被废弃。最终方案为引入独立第三方Evaluator Agent,专门评估Generator的代码产出,评估更客观,且可单独优化训练,强化质量管控。

至此,Planner(规划)、Generator(生成)、Evaluator(评估)三大Agent形成分工体系,构成Full Harness方案。

三大Agent协同流程清晰,保障任务可控:

  • Planner拆解用户需求为功能列表,发送给Generator;
  • Generator选取一个功能点,与Evaluator确认交付标准,直至达成一致;
  • Generator生成代码并提交评估,不合格则修改重提,直至通过;
相关推荐
悠哉摸鱼大王1 小时前
cesium学习(三)-3d tiles
前端·cesium
前端那点事1 小时前
Vue3自定义Hooks保姆级教程!从原理到企业级实战,告别混乱代码
前端·vue.js
前端那点事1 小时前
别再乱用Vue3响应式!ref、reactive、toRef、toRefs完整区别+企业级落地实战
前端·vue.js
yingyima1 小时前
Base64 编码解码实战:业务场景下的高效应用
前端
悠哉摸鱼大王1 小时前
cesium学习(五)-Primitive
前端·cesium
悟空瞎说1 小时前
Git Worktree 实战:多 AI 编码代理并行开发,彻底解决分支切换冲突痛点
前端·git
悠哉摸鱼大王1 小时前
cesium学习(四)-相机
前端·cesium
zeqinjie2 小时前
Skills-Flutter 内测泄漏审核
前端·flutter·app
镜花水月linyi2 小时前
GitHub 已开源:民政部官方的国家地名信息库 MCP & Skill 实现
后端·ai编程·mcp