Agent Harness：模型之外的智能体系统工程

AI Agent 从能力演示走向生产落地，模型外围的运行、记忆、工具、验证与治理体系正在成为重要变量

核心判断

Agent Harness 是围绕模型构建的可控系统层，正在成为 AI Agent 从能力演示走向生产落地的关键支撑。当前头部厂商一边把规划、工具调用、自我纠错等能力训练进模型，一边在模型外围建设运行、记忆、工具、验证、安全和编排体系。未来，底层标准化能力会被模型逐步吸收，企业级、产品级和多系统协同能力将继续沉淀为竞争壁垒。

本文解读

中金公司 2026 年 5 月发布研报《Agent Harness：模型之外、智能之内》，系统梳理了 Agent Harness 的概念定义、产业作用、模型边界和厂商实践。本文并不展开复述研报全部内容，而是围绕中金报告提炼三个行业信号：第一，Agent Harness 的出现说明智能体正在进入系统工程阶段；第二，头部厂商围绕运行、记忆、工具、验证和安全补齐模型外围能力，说明智能体竞争正在从模型能力扩展到系统承接能力；第三，模型能力增强会吸收部分底层 Harness 能力，但企业级场景中的权限、记忆、可观测、多系统协同和交付能力仍会留在系统层。基于这三个信号，本文重点讨论 Agent Harness 的当前位置和后续趋势。

第一章智能体进入系统工程阶段

行业变化

过去两年，AI 产品的评价标准主要围绕模型生成质量------回答是否准确、文本是否通顺、推理是否正确。这是合理的，模型能力提升是这一轮 AI 浪潮的起点。但当智能体开始承担真实任务时，竞争焦点发生了变化。

中金研报将 Agent 工程化范式梳理为三个阶段：提示词工程（Prompt Engineering）关注如何给模型下指令，上下文工程（Context Engineering）关注模型在每一步该看到什么信息，Harness 工程（Harness Engineering）关注智能体系统怎样稳定工作。LangChain 的表述更直接：Model + Harness = Agent------模型本身不是智能体，赋予它系统支撑之后，它才成为能完成任务的智能体。

这一演进背后的行业逻辑是：当 Agent 需要连续执行十几个步骤、调用多个外部系统、在异常发生后自主恢复、跨会话接续工作时，单次生成质量已经不能决定最终效果。运行环境是否稳定、上下文是否完整、工具调用是否准确、执行过程是否可追溯------这些系统工程能力开始决定智能体在生产环境中能否可靠交付。

一个代表性的证据：Claude Code 源码总计约 50 万行，其中仅 1.6% 是直接与模型交互的核心代码，其余 98.4% 均是围绕模型构建的运行、约束与支撑机制。这说明模型之外的系统层已经非常厚，智能体产品的工程重心正在向模型外围转移。

趋势判断

Agent Harness 的出现说明智能体竞争正在从模型生成能力，扩展到长程任务执行、状态管理、工具调用、验证评估和安全控制等系统工程能力。模型仍是基础，但生产环境中的实际表现越来越由系统层决定。

第二章模型能力落地需要系统支撑

行业现状

从行业动作看，模型厂商、平台、企业客户和开发者生态正在同时关注 Harness 能力。这种多方同步投入说明 Harness 已经从技术优化手段变为产业关键环节。

对模型厂商，Harness 直接影响产品竞争力。 LangChain 在不改变底层模型的情况下，仅通过调整系统层配置，让其编程智能体在权威基准测试上从行业前三十升至前五。这说明同一个模型在不同 Harness 支撑下的表现差距可以很大。对模型厂商而言，Harness 工程能力正在成为提升模型产品竞争力的直接手段。

对平台，记忆正在变成用户粘性和迁移门槛。记忆能力决定了智能体能否跨会话持续理解用户、沉淀偏好和工作习惯。没有记忆，同类工具可以轻易复制一个智能体的能力；有了记忆，用户在平台上积累的决策历史和工作流偏好会形成迁移成本。头部平台已经在通过封闭式记忆架构主动提升这一门槛------将用户历史、偏好和上下文封装在自有环境内，使跨平台迁移变得困难。

对企业客户，生产环境需要可控、安全、可审计。企业将智能体用于生产力场景时，关心的核心问题是：能否接入现有系统、能否遵守权限边界、执行过程能否留下记录、出问题后能否追溯和干预、运行成本能否可控。这些需求无法由模型本身满足，必须由系统层承接。近期 Anthropic 和 OpenAI 几乎同时加速企业级部署，反映了这一需求的规模。

对生态，工具和数据连接可能形成入口。 Harness 连接模型与外部系统，承担基础设施和接入层的角色。随着更多工具、服务和企业数据在系统层沉淀，Harness 有可能成为智能体调用外部能力的分发枢纽，形成类似应用商店的入口效应。

趋势判断

Harness 的价值已经超出技术优化，开始影响模型迭代效率、平台用户留存、企业采购决策和生态商业化路径。其产业含义是：围绕智能体的竞争正在从单一的模型能力维度，扩展到系统承接能力、用户资产沉淀和生态连接能力等多个维度。

第三章底层能力内生化，企业级能力外延

行业现状

行业正在同时发生两件事：

第一，模型训练正在吸收 Agent 能力。头部厂商在训练阶段引入多步规划、工具调用、自我纠错等数据和强化学习机制，使模型在训练时就学习智能体任务的执行与纠错能力。Anthropic、OpenAI、阿里、智谱等厂商均在推进这一方向。其结果是，部分过去需要外部系统承担的能力（常规工具调用逻辑、简单状态管理、基础任务分解）正在被模型内化。

第二，生产环境中的系统能力仍需 Harness 承接。权限管理、记忆治理、可观测性、审计追溯、多系统协同和企业流程接入等能力，场景依赖性强、治理要求高，无法被统一模型完全覆盖。这些能力的重心持续保留在系统层。

Anthropic 的实践是一个有说明力的参照：随着新版本模型消除了特定能力短板，此前为弥补这些短板而设计的 Harness 机制会被主动移除。Anthropic 将这类随模型增强而过时的机制称为"死权重"。这说明模型能力提升后，底层 Harness 机制确实会被打薄。

但同时，企业级和产品级的能力在持续扩展------头部产品仍在不断迭代权限体系、记忆管理、验证评估、安全隔离和多智能体编排，这些能力并未因模型增强而收缩。

对企业的含义

这一动态分工关系对企业建设智能体系统有直接影响：企业不宜把所有能力都固化成厚重框架。底层能力（基础工具调用、简单任务编排、标准化推理流程）要保持可替换，因为它们会随模型迭代而被吸收。真正应该沉淀的是企业权限体系、数据连接、流程编排、观测审计和人工接管能力------这些是模型无法替代、且随使用积累会持续增值的部分。

趋势判断

模型与 Harness 不是简单替代关系，而是动态分工关系。模型会吸收低层、标准化、可训练的 Agent 能力；Harness 会继续承接高层、场景化、强治理的企业系统能力。两者的边界随模型能力提升而移动，Harness 的重心会从底层机制逐步上移到产品层和企业层。

第四章头部厂商的三类动作

从行业动作看，头部厂商围绕 Harness 的实践可以归纳为三类方向：

一、补齐运行底座

模型厂商正在把智能体产品能力建立在运行环境、工程约束、验证反馈和可观测机制上。

代表实践是 OpenAI Codex 和 Claude Code。OpenAI 公开的工程方法显示：其团队通过设计约束规则、建立反馈回路和构建隔离运行环境来指导智能体，而非逐步指导它完成每个动作。人类的角色从执行者变为环境设计者和规则制定者。Anthropic 则从 2025 年下半年起持续迭代 Harness 架构，最终将系统解耦为日志层、隔离执行层和无状态指挥层，使长程任务的恢复性、安全性和响应效率同步提升。

这说明智能体产品的工程重心正在从"如何让模型生成更好的内容"转向"如何让智能体在真实环境中稳定、安全、可恢复地执行任务"。

二、模型训练吸收 Agent 能力

工具调用、任务规划、自我纠错正在从外部 Harness 机制进入模型训练环节。Anthropic、OpenAI、阿里、智谱、MiniMax 等厂商均在训练中引入智能体交互轨迹和环境反馈，使模型在训练阶段即具备在真实场景中规划、执行和纠错的能力。

与此同时，Harness 在真实任务中捕获的执行轨迹数据，本身是训练模型 Agent 能力的重要素材。这形成了一个闭环：Harness 既是模型能力的落地层，也是模型迭代的数据来源。模型增强后，底层 Harness 机制被打薄；但打薄后的系统仍在产生新的执行数据，继续反哺下一代模型训练。

三、争夺入口、记忆和技能资产

记忆、技能、主动触发和多渠道入口正在影响用户粘性、平台锁定和生态分发。

Claude Code 构建了多层记忆体系，使智能体能跨会话持续理解用户并沉淀工作偏好。Hermes 在记忆基础上引入技能自进化机制：智能体完成复杂任务后自动提炼可复用技能，后续按需加载并持续优化。OpenClaw 则让智能体从被动工具变为主动助手，通过定期巡检和多渠道接入，使智能体能主动发现重要信息并触达用户。

这些动作的共同方向是：让用户在平台上沉淀更多资产（记忆、技能、习惯、连接），使迁移成本持续上升，从而将 Harness 层的技术能力转化为商业壁垒。

本章判断

头部厂商围绕 Harness 的竞争已经分化为三条路径：运行底座、模型数据闭环、用户资产锁定。未来竞争将体现为模型能力、系统工程能力、工具生态和企业数据连接的组合。

对国内市场和企业建设的启示

国内 ToB 落地路径

Agent Harness 在国内市场不一定首先表现为独立的通用智能体平台，更可能嵌入办公工作台、企业知识库、连接器、流程自动化和行业应用模板中。国内企业对智能体的需求往往从具体业务场景出发------审批流程自动化、知识检索增强、客户服务辅助、报表生成等------而非追求一个通用的自主执行系统。

企业客户真正关注的能力

企业客户需要的不是一个能演示复杂能力的智能体，而是能够接入现有系统、遵守权限边界、留下过程记录、支持人工接管，并在可控成本下持续执行任务的系统。从已有落地案例看，权限管理、数据安全、过程可追溯和人工干预机制是企业评估智能体产品时的优先关注项。

企业建设优先级

短期应优先建设权限管理、工具治理、任务状态、日志观测和人工接管能力；中期再建设记忆管理、评估体系、跨系统编排和多智能体协作。不宜一开始就追求完整的多层 Harness 体系，原因有二：一是底层能力可能随模型迭代被吸收，过早固化会成为负担；二是企业场景千差万别，系统层应围绕真实业务需求逐步生长，而非照搬通用框架。

风险判断

短期过度建设 Harness 可能带来系统复杂度上升和维护成本增加。长期看，低层标准化能力会被模型吸收，如果平台缺乏企业场景、数据闭环和交付能力，Harness 壁垒可能被削弱。对国内 ToB 厂商而言，能否连接真实业务系统、沉淀企业流程数据并形成可治理的交付体系，会比单纯的框架能力更重要。

趋势展望

Agent Harness 正在成为 AI Agent 从演示走向生产落地的系统支撑层。模型仍是基础变量，Harness 是生产环境中的新增关键变量。 2. 模型会持续吸收底层标准化 Agent 能力，但企业级、产品级和多系统协同能力会继续由 Harness 承接。两者是动态分工关系，边界随模型能力提升而移动。 3. 厂商竞争将从单一模型能力竞争，扩展到模型能力、Harness 工程能力、工具生态、企业数据连接和运行反馈闭环的综合竞争。对国内 ToB 市场而言，能否连接真实业务系统、沉淀企业流程数据并形成可治理的交付体系，会成为更直接的竞争点。

参考文献

中金公司《人工智能十年展望（二十九）：Agent Harness：模型之外、智能之内》，2026年5月31日