Agent Harness:模型之外的智能体系统工程

AI Agent 从能力演示走向生产落地,模型外围的运行、记忆、工具、验证与治理体系正在成为重要变量

核心判断

Agent Harness 是围绕模型构建的可控系统层,正在成为 AI Agent 从能力演示走向生产落地的关键支撑。当前头部厂商一边把规划、工具调用、自我纠错等能力训练进模型,一边在模型外围建设运行、记忆、工具、验证、安全和编排体系。未来,底层标准化能力会被模型逐步吸收,企业级、产品级和多系统协同能力将继续沉淀为竞争壁垒。

本文解读

中金公司 2026 年 5 月发布研报《Agent Harness:模型之外、智能之内》,系统梳理了 Agent Harness 的概念定义、产业作用、模型边界和厂商实践。本文并不展开复述研报全部内容,而是围绕中金报告提炼三个行业信号:第一,Agent Harness 的出现说明智能体正在进入系统工程阶段;第二,头部厂商围绕运行、记忆、工具、验证和安全补齐模型外围能力,说明智能体竞争正在从模型能力扩展到系统承接能力;第三,模型能力增强会吸收部分底层 Harness 能力,但企业级场景中的权限、记忆、可观测、多系统协同和交付能力仍会留在系统层。基于这三个信号,本文重点讨论 Agent Harness 的当前位置和后续趋势。

第一章 智能体进入系统工程阶段

行业变化

过去两年,AI 产品的评价标准主要围绕模型生成质量------回答是否准确、文本是否通顺、推理是否正确。这是合理的,模型能力提升是这一轮 AI 浪潮的起点。但当智能体开始承担真实任务时,竞争焦点发生了变化。

中金研报将 Agent 工程化范式梳理为三个阶段:提示词工程(Prompt Engineering)关注如何给模型下指令,上下文工程(Context Engineering)关注模型在每一步该看到什么信息,Harness 工程(Harness Engineering)关注智能体系统怎样稳定工作。LangChain 的表述更直接:Model + Harness = Agent------模型本身不是智能体,赋予它系统支撑之后,它才成为能完成任务的智能体。

这一演进背后的行业逻辑是:当 Agent 需要连续执行十几个步骤、调用多个外部系统、在异常发生后自主恢复、跨会话接续工作时,单次生成质量已经不能决定最终效果。运行环境是否稳定、上下文是否完整、工具调用是否准确、执行过程是否可追溯------这些系统工程能力开始决定智能体在生产环境中能否可靠交付。

一个代表性的证据:Claude Code 源码总计约 50 万行,其中仅 1.6% 是直接与模型交互的核心代码,其余 98.4% 均是围绕模型构建的运行、约束与支撑机制。这说明模型之外的系统层已经非常厚,智能体产品的工程重心正在向模型外围转移。

趋势判断

Agent Harness 的出现说明智能体竞争正在从模型生成能力,扩展到长程任务执行、状态管理、工具调用、验证评估和安全控制等系统工程能力。模型仍是基础,但生产环境中的实际表现越来越由系统层决定。

第二章 模型能力落地需要系统支撑

行业现状

从行业动作看,模型厂商、平台、企业客户和开发者生态正在同时关注 Harness 能力。这种多方同步投入说明 Harness 已经从技术优化手段变为产业关键环节。

对模型厂商,Harness 直接影响产品竞争力。 LangChain 在不改变底层模型的情况下,仅通过调整系统层配置,让其编程智能体在权威基准测试上从行业前三十升至前五。这说明同一个模型在不同 Harness 支撑下的表现差距可以很大。对模型厂商而言,Harness 工程能力正在成为提升模型产品竞争力的直接手段。

对平台,记忆正在变成用户粘性和迁移门槛。 记忆能力决定了智能体能否跨会话持续理解用户、沉淀偏好和工作习惯。没有记忆,同类工具可以轻易复制一个智能体的能力;有了记忆,用户在平台上积累的决策历史和工作流偏好会形成迁移成本。头部平台已经在通过封闭式记忆架构主动提升这一门槛------将用户历史、偏好和上下文封装在自有环境内,使跨平台迁移变得困难。

对企业客户,生产环境需要可控、安全、可审计。 企业将智能体用于生产力场景时,关心的核心问题是:能否接入现有系统、能否遵守权限边界、执行过程能否留下记录、出问题后能否追溯和干预、运行成本能否可控。这些需求无法由模型本身满足,必须由系统层承接。近期 Anthropic 和 OpenAI 几乎同时加速企业级部署,反映了这一需求的规模。

对生态,工具和数据连接可能形成入口。 Harness 连接模型与外部系统,承担基础设施和接入层的角色。随着更多工具、服务和企业数据在系统层沉淀,Harness 有可能成为智能体调用外部能力的分发枢纽,形成类似应用商店的入口效应。

趋势判断

Harness 的价值已经超出技术优化,开始影响模型迭代效率、平台用户留存、企业采购决策和生态商业化路径。其产业含义是:围绕智能体的竞争正在从单一的模型能力维度,扩展到系统承接能力、用户资产沉淀和生态连接能力等多个维度。

第三章 底层能力内生化,企业级能力外延

行业现状

行业正在同时发生两件事:

第一,模型训练正在吸收 Agent 能力。 头部厂商在训练阶段引入多步规划、工具调用、自我纠错等数据和强化学习机制,使模型在训练时就学习智能体任务的执行与纠错能力。Anthropic、OpenAI、阿里、智谱等厂商均在推进这一方向。其结果是,部分过去需要外部系统承担的能力(常规工具调用逻辑、简单状态管理、基础任务分解)正在被模型内化。

第二,生产环境中的系统能力仍需 Harness 承接。 权限管理、记忆治理、可观测性、审计追溯、多系统协同和企业流程接入等能力,场景依赖性强、治理要求高,无法被统一模型完全覆盖。这些能力的重心持续保留在系统层。

Anthropic 的实践是一个有说明力的参照:随着新版本模型消除了特定能力短板,此前为弥补这些短板而设计的 Harness 机制会被主动移除。Anthropic 将这类随模型增强而过时的机制称为"死权重"。这说明模型能力提升后,底层 Harness 机制确实会被打薄。

但同时,企业级和产品级的能力在持续扩展------头部产品仍在不断迭代权限体系、记忆管理、验证评估、安全隔离和多智能体编排,这些能力并未因模型增强而收缩。

对企业的含义

这一动态分工关系对企业建设智能体系统有直接影响:企业不宜把所有能力都固化成厚重框架。底层能力(基础工具调用、简单任务编排、标准化推理流程)要保持可替换,因为它们会随模型迭代而被吸收。真正应该沉淀的是企业权限体系、数据连接、流程编排、观测审计和人工接管能力------这些是模型无法替代、且随使用积累会持续增值的部分。

趋势判断

模型与 Harness 不是简单替代关系,而是动态分工关系。模型会吸收低层、标准化、可训练的 Agent 能力;Harness 会继续承接高层、场景化、强治理的企业系统能力。两者的边界随模型能力提升而移动,Harness 的重心会从底层机制逐步上移到产品层和企业层。

第四章 头部厂商的三类动作

从行业动作看,头部厂商围绕 Harness 的实践可以归纳为三类方向:

一、补齐运行底座

模型厂商正在把智能体产品能力建立在运行环境、工程约束、验证反馈和可观测机制上。

代表实践是 OpenAI Codex 和 Claude Code。OpenAI 公开的工程方法显示:其团队通过设计约束规则、建立反馈回路和构建隔离运行环境来指导智能体,而非逐步指导它完成每个动作。人类的角色从执行者变为环境设计者和规则制定者。Anthropic 则从 2025 年下半年起持续迭代 Harness 架构,最终将系统解耦为日志层、隔离执行层和无状态指挥层,使长程任务的恢复性、安全性和响应效率同步提升。

这说明智能体产品的工程重心正在从"如何让模型生成更好的内容"转向"如何让智能体在真实环境中稳定、安全、可恢复地执行任务"。

二、模型训练吸收 Agent 能力

工具调用、任务规划、自我纠错正在从外部 Harness 机制进入模型训练环节。Anthropic、OpenAI、阿里、智谱、MiniMax 等厂商均在训练中引入智能体交互轨迹和环境反馈,使模型在训练阶段即具备在真实场景中规划、执行和纠错的能力。

与此同时,Harness 在真实任务中捕获的执行轨迹数据,本身是训练模型 Agent 能力的重要素材。这形成了一个闭环:Harness 既是模型能力的落地层,也是模型迭代的数据来源。模型增强后,底层 Harness 机制被打薄;但打薄后的系统仍在产生新的执行数据,继续反哺下一代模型训练。

三、争夺入口、记忆和技能资产

记忆、技能、主动触发和多渠道入口正在影响用户粘性、平台锁定和生态分发。

Claude Code 构建了多层记忆体系,使智能体能跨会话持续理解用户并沉淀工作偏好。Hermes 在记忆基础上引入技能自进化机制:智能体完成复杂任务后自动提炼可复用技能,后续按需加载并持续优化。OpenClaw 则让智能体从被动工具变为主动助手,通过定期巡检和多渠道接入,使智能体能主动发现重要信息并触达用户。

这些动作的共同方向是:让用户在平台上沉淀更多资产(记忆、技能、习惯、连接),使迁移成本持续上升,从而将 Harness 层的技术能力转化为商业壁垒。

本章判断

头部厂商围绕 Harness 的竞争已经分化为三条路径:运行底座、模型数据闭环、用户资产锁定。未来竞争将体现为模型能力、系统工程能力、工具生态和企业数据连接的组合。

对国内市场和企业建设的启示

国内 ToB 落地路径

Agent Harness 在国内市场不一定首先表现为独立的通用智能体平台,更可能嵌入办公工作台、企业知识库、连接器、流程自动化和行业应用模板中。国内企业对智能体的需求往往从具体业务场景出发------审批流程自动化、知识检索增强、客户服务辅助、报表生成等------而非追求一个通用的自主执行系统。

企业客户真正关注的能力

企业客户需要的不是一个能演示复杂能力的智能体,而是能够接入现有系统、遵守权限边界、留下过程记录、支持人工接管,并在可控成本下持续执行任务的系统。从已有落地案例看,权限管理、数据安全、过程可追溯和人工干预机制是企业评估智能体产品时的优先关注项。

企业建设优先级

短期应优先建设权限管理、工具治理、任务状态、日志观测和人工接管能力;中期再建设记忆管理、评估体系、跨系统编排和多智能体协作。不宜一开始就追求完整的多层 Harness 体系,原因有二:一是底层能力可能随模型迭代被吸收,过早固化会成为负担;二是企业场景千差万别,系统层应围绕真实业务需求逐步生长,而非照搬通用框架。

风险判断

短期过度建设 Harness 可能带来系统复杂度上升和维护成本增加。长期看,低层标准化能力会被模型吸收,如果平台缺乏企业场景、数据闭环和交付能力,Harness 壁垒可能被削弱。对国内 ToB 厂商而言,能否连接真实业务系统、沉淀企业流程数据并形成可治理的交付体系,会比单纯的框架能力更重要。

趋势展望

  1. Agent Harness 正在成为 AI Agent 从演示走向生产落地的系统支撑层。模型仍是基础变量,Harness 是生产环境中的新增关键变量。 2. 模型会持续吸收底层标准化 Agent 能力,但企业级、产品级和多系统协同能力会继续由 Harness 承接。两者是动态分工关系,边界随模型能力提升而移动。 3. 厂商竞争将从单一模型能力竞争,扩展到模型能力、Harness 工程能力、工具生态、企业数据连接和运行反馈闭环的综合竞争。对国内 ToB 市场而言,能否连接真实业务系统、沉淀企业流程数据并形成可治理的交付体系,会成为更直接的竞争点。

参考文献

  1. 中金公司《人工智能十年展望(二十九):Agent Harness:模型之外、智能之内》,2026年5月31日
相关推荐
zhiSiBuYu05171 小时前
混合检索实战指南:关键词与向量的完美融合
人工智能·python·机器学习
蓝速科技1 小时前
蓝速科技 3D 全息舱 AI 数字人博物馆导览效果实录
人工智能·科技·3d
AI-好学者1 小时前
RAG知识点_3_高级实践
人工智能·ai·架构·langchain·ai编程
大神科技AI定制1 小时前
告别Excel手工报价,用AI给非标产品报价提效
人工智能
AI视频剪辑官1 小时前
播客切片工具选型核心评价维度
网络·人工智能·算法
Black蜡笔小新1 小时前
制造业AI质检工作站/企业AI算力工作站DLTM重构工业质检全流程体系
人工智能·重构
Kyrie6784 小时前
SkillOpt:把 Agent 的技能文件当作可训练参数
人工智能
zzzzzz3104 小时前
别争了,OpenClaw 和国产龙虾我全都要:一个 AI Agent 混合部署实战
机器学习·机器人·api
冬奇Lab4 小时前
Workflow 系列(07):工程化与版本管理——Workflow 的 CI/CD
人工智能·工作流引擎
两万五千个小时4 小时前
Claude Code 上下文管理(一):为什么 Agent 会"失忆"?
人工智能·架构·开源