Harness Engineering：AI Agent 时代，工程师的新核心能力

Harness Engineering：AI Agent时代，工程师的新核心能力

一、开篇：AI Agent的冰火两重天

2025-2026年，AI Agent已经从概念走向大众：几乎每个开发者都试过用Claude、GPT搭建一个属于自己的AI Agent，让它帮你写代码、改项目、处理日常工作。但绝大多数人都会遇到同样的困境：

演示的时候很惊艳，真正用的时候频频翻车，写的代码跑不通、逻辑跑偏、甚至误删文件；
堆了几十条提示词、接了一堆工具，结果Agent还是频繁幻觉、上下文混乱，越跑越偏；
单任务能跑通，多任务、长周期任务就彻底失控，完全没法规模化落地到生产环境。

问题到底出在哪？是模型不够聪明吗？

不是。硅谷最新的技术范式给出了答案：绝大多数Agent的失败，根源不是模型能力不足，而是你没有给模型搭好一套合格的「Harness（驾驭系统）」。

今天我们要讲的「Harness Engineering（驾驭工程）」，正是2026年硅谷AI圈最火的Agent开发新范式，也是GitHub爆款项目 shareAI-lab/learn-claude-code 贯穿始终的核心思想------The model is the agent. The code is the harness.（模型即智能体，代码即驾驭层）。

二、正本清源：到底什么是真正的Agent？

在讲驾驭工程之前，我们必须先纠正一个行业普遍的认知误区：到底什么是Agent？

很多人以为，Agent就是提示词链、是拖拽式工作流、是LangChain之类的编排框架。但learn-claude-code开篇就明确指出：这些都不是真正的Agent，只是「prompt plumbing（提示词管道）」------用一堆if-else逻辑和硬编码规则，把LLM API调用串起来的"鲁布·戈德堡机械"，看似复杂，实则脆弱、不可扩展、根本没有自主能力。

从AI诞生之初，「Agent」的定义就从未变过：

Agent是一个经过训练的模型，它能感知环境、推理目标、采取行动来达成目标。

2013年DeepMind玩Atari游戏的DQN、2019年击败Dota2世界冠军的OpenAI Five、2024-2025年颠覆软件工程的Claude Code，所有里程碑式的Agent都遵循同一个真理：Agent的核心永远是模型本身，而周围的代码，从来都不是Agent，而是Harness（驾驭层）。

模型是拥有智能、能做决策的"大脑"，而Harness，就是给这个大脑配上的"眼睛、双手、工作空间、安全护栏和规则体系"------它不负责产生智能，只负责让智能安全、稳定、高效地落地。

三、核心定义：什么是Harness Engineering驾驭工程？

1. 官方定义与核心公式

Harness Engineering（驾驭工程），是一门围绕AI模型构建执行环境、约束边界、反馈循环与质量体系的工程学科，它的目标是让大模型的智能从"不可控的演示"变成"可落地的生产能力"。

它的核心公式极其简洁，却道破了Agent的本质：

ini 复制代码

Agent = Model + Harness

Model：LLM（Claude/GPT/Gemini等），提供核心的推理、规划、决策能力，是Agent的"智能本体"；
Harness：模型之外的全部代码、环境、规则、调度、验证体系，是Agent的"执行与控制系统"。

2. 最形象的类比

如果模型是一匹拥有极强爆发力的烈马，Harness就是全套马具+缰绳+马车------它不改变马的奔跑能力，却能让马按照你的目标、在安全的路线上，稳定地把你送到目的地；
如果模型是CPU（原始算力），Harness就是操作系统------它管理内存、调度任务、控制权限、隔离风险，让CPU的算力真正变成可用的程序。

3. Harness的完整构成

learn-claude-code给出了Harness的标准定义，它由5大核心模块构成：

ini 复制代码

Harness = Tools + Knowledge + Observation + Action Interfaces + Permissions

Tools（工具）：给模型"双手"，包括文件读写、Shell执行、网络请求、浏览器控制、数据库操作等，所有工具都要做到原子化、可组合、可描述；
Knowledge（知识）：给模型"领域经验"，包括产品文档、API规范、架构设计、代码风格指南、行业规则等，按需加载，而非一次性塞给模型；
Observation（观察）：给模型"眼睛"，包括Git变更、错误日志、浏览器状态、传感器数据、环境信息等，让模型能清晰感知当前的任务状态；
Action（执行接口）：给模型"行动通道"，包括CLI命令、API调用、UI交互等，统一模型的动作输出格式；
Permissions（权限体系）：给模型"边界"，包括沙箱隔离、危险操作拦截、人工审批流程、信任边界管控，是安全的核心。

简单来说：模型负责决策，Harness负责执行；模型负责思考，Harness负责提供上下文；模型是驾驶员，Harness是整车系统。

四、架构拆解：Harness的三层核心结构

learn-claude-code用12个渐进式的Session，完整呈现了Harness从0到生产级的完整进化路径，整体可以分为三层核心架构，每一层都对应着明确的能力边界和解决的核心问题。

复制代码

┌─────────────────────────────────────────────────┐
│              Production Harness 生产级驾驭层     │
│  能力：CI/质量门 · 知识库 · 自迭代 · 监控审计    │
│  对应：Session 08-12                            │
├─────────────────────────────────────────────────┤
│              Constraints & Safety 约束安全层     │
│  能力：子Agent · MCP协议 · 安全护栏 · 存档回滚  │
│  对应：Session 04-07                            │
├─────────────────────────────────────────────────┤
│              Base Harness 基础驾驭层             │
│  能力：核心循环 · 基础工具 · 记忆 · 技能        │
│  对应：Session 01-03                            │
└─────────────────────────────────────────────────┘

1. 基础驾驭层：让Agent"能跑起来"

这是Harness的地基，核心是搭建最基础的Agent执行闭环，让模型拥有最基础的行动能力。对应learn-claude-code的前3个Session：

Session 01：The Agent Loop 核心循环 核心口号：One loop & Bash is all you need（一个循环+ Bash 就足够了）。这是所有Agent的心脏，只用一个极简的循环，就实现了最基础的Agent能力：让模型输出Bash命令→执行命令→把结果喂回模型→循环直到任务完成。它证明了Agent的本质，就是"感知-思考-行动-反馈"的循环。
Session 02：Tool Use 工具体系 核心口号：Adding a tool means adding one handler（加一个工具，只需要加一个处理器）。给模型固定4个核心工具：read（读文件）、write（写文件）、edit（改文件）、bash（执行命令），给模型划定了基础的动作空间，让模型的输出结构化、可解析、可执行。
Session 03：Planning 规划机制 核心口号：An agent without a plan drifts（没有计划的Agent只会跑偏）。强制模型在行动之前，先列出完整的执行步骤，再一步步落地，让Agent的任务完成率直接翻倍，解决了模型"想到哪做到哪、频繁返工"的问题。

2. 约束安全层：让Agent"不闯祸、不跑偏"

基础层能让Agent跑起来，但很容易失控：上下文爆炸、权限越界、任务拆解混乱。约束安全层的核心，就是给Agent加上"缰绳"和"刹车"，让它在可控的范围内行动。对应Session 04-07：

Session 04：Subagents 子Agent机制 核心口号：Break big tasks down; each subtask gets a clean context（拆解大任务，每个子任务都有干净的上下文）。把复杂任务拆分成多个子任务，每个子任务分配一个独立的子Agent，拥有独立的上下文，避免主对话被污染，解决了长任务上下文混乱、模型健忘的问题。
Session 05：Skills 技能库 核心口号：Load knowledge when you need it, not upfront（按需加载知识，而非提前注入）。把高频、固定的能力封装成"技能"（比如lint、test、build），模型不需要每次都从头生成代码，只需要调用技能名即可，大幅降低幻觉，提升执行稳定性。
Session 06：Context Compact 上下文压缩 核心口号：Context will fill up; you need a way to make room（上下文总会被填满，你需要给它腾出空间）。用三层压缩策略，自动清理无效上下文，只保留关键信息，让Agent支持无限时长的会话，彻底解决上下文爆炸的问题。
Session 07：Task System 任务持久化 核心口号：Break big goals into small tasks, order them, persist to disk（把大目标拆成小任务，排序后持久化到磁盘）。搭建基于文件的任务依赖图，把任务、进度、状态持久化到本地，就算会话中断，Agent也能接着之前的进度继续执行，为多Agent协作打下基础。

3. 生产质量层：让Agent"能稳定上线、规模化落地"

这一层的核心，是把传统软件工程的质量体系、工程规范，完整地套在Agent的输出上，让Agent从"玩具"变成"生产工具"。对应Session 08-12：

Session 08：Background Tasks 后台任务 核心口号：Run slow operations in the background; the agent keeps thinking（慢操作后台运行，Agent持续思考）。用守护线程执行耗时操作，完成后自动给Agent发送通知，避免Agent卡在耗时任务上卡死，提升了长周期任务的执行效率。
Session 09-11：Multi-Agent Teams 多Agent团队协作 核心口号：When the task is too big for one, delegate to teammates（一个人搞不定的任务，就交给团队）。搭建了持久化的Agent团队、异步邮箱通信机制、统一的协作协议，让多个Agent可以自主认领任务、分工协作，比如一个Agent写代码、一个写测试、一个做审核，模拟真实的研发团队，实现了复杂项目的规模化处理。
Session 12：Worktree Isolation 工作树隔离 核心口号：Each works in its own directory, no interference（每个Agent在自己的目录工作，互不干扰）。给每个任务、每个Agent分配独立的工作目录，实现了执行环境的完全隔离，避免不同任务、不同Agent之间互相干扰，同时实现了并行执行，是生产级Agent的最后一块拼图。

五、心脏机制：Agent Loop 驾驭循环

所有Harness的能力，都围绕着一个核心运转，那就是Agent Loop（驾驭循环）。它是Agent的心脏，也是Harness Engineering最核心的原理，极简却无比强大。

markdown 复制代码

┌───────────┐        ┌──────────┐        ┌──────────┐
│  Observe  │───────▶│   Think  │───────▶│    Act   │
│  观察状态 │        │ 规划决策 │        │ 执行工具 │
└───────────┘        └──────────┘        └──────────┘
      ▲                                           │
      │                                           ▼
      │                                   ┌───────────┐
      └───────────────────────────────────│  Verify  │
                                          │ 验证校验 │
                                          └───────────┘

这个循环的每一步，都离不开Harness的控制：

Observe（观察）：Harness不会把整个项目的所有文件都丢给模型，而是精准筛选当前任务需要的信息、之前的执行结果、环境状态，只给模型"刚刚好的信息"，避免上下文污染；
Think（思考）：Harness会给模型固定的输出格式、规则约束，强制模型输出结构化的工具调用，而非随意的文本，让模型的决策可解析、可审计；
Act（行动）：Harness不会直接执行模型的命令，而是先经过安全护栏的检查------危险操作拦截、权限校验、沙箱隔离，确认安全后再执行，全程可监控、可中断；
Verify（验证）：Harness会自动执行质量校验------代码lint、单元测试、格式检查、逻辑校验，不通过就把错误信息完整喂回模型，让它重写修复，直到通过质量门，再进入下一轮循环。

整个循环中，Harness全程掌控着节奏、边界、安全和质量，而模型只需要专注于它最擅长的事：推理和决策。 这就是驾驭工程的核心魅力------信任模型的智能，但绝不放任它的行动。

六、范式跃迁：驾驭工程和传统开发的本质区别

很多人会问：Harness Engineering，到底和传统的软件工程、Prompt Engineering有什么不一样？它不是旧东西换了个新名字吗？

答案是否定的。它是AI时代，软件工程的一次彻底的范式跃迁，三者的核心区别，用一张表就能讲清楚：

对比维度	传统软件工程	Prompt Engineering	Harness Engineering 驾驭工程
核心主体	人	人+LLM辅助	LLM为主，人为驾驭者
核心工作	人亲手写每一行代码，实现需求	优化提示词，引导LLM输出正确内容	设计AI的工作环境、约束规则、反馈循环、质量体系
控制方式	人直接控制代码的每一行细节	仅控制输入指令，无法控制执行过程	全程控制执行循环、权限边界、输出质量、执行状态
可靠性	高，完全由人掌控	极低，不可控、易幻觉、易跑偏	高，全程有约束、有校验、有兜底
规模化能力	低，人的产能有明确上限	低，提示词无法适配复杂场景、无法复用	高，一套Harness可以适配大量同类任务，支持多Agent并行
核心价值	实现功能，交付代码	提升单任务的生成效率	让AI的智能规模化、安全化落地，释放AI的全量产能

简单来说：

传统软件工程，人是代码的生产者；
Prompt Engineering，人是提示词的优化者，AI是辅助工具；
Harness Engineering，人是AI的驾驭者、环境的设计者，AI是核心的生产者，而人掌控全局。

七、终局：AI时代，工程师的新角色

当AI写代码的能力已经远超绝大多数普通工程师，我们到底该如何面对AI的冲击？我们的不可替代的价值到底在哪？

Harness Engineering给出了最清晰的答案：未来的工程师，不再是"码农"，而是AI的"驾驭工程师"。

你不需要和AI比谁写代码更快、更准，你要做的，是给AI设计一套完整的驾驭系统：

你定义AI的目标和边界；
你搭建AI的工作环境和工具体系；
你设计AI的反馈循环和质量门；
你管控AI的安全和权限；
你让AI的智能，真正落地到真实的业务中，创造价值。

这就是未来工程师不可替代的核心能力------不是和AI内卷，而是驾驭AI，让AI成为你的超级团队，释放出远超个人的产能。

八、结尾：行动指引与核心信条

最后，回到我们开篇的问题：怎么让你的Agent真正落地、不再翻车？

答案很简单：不要再沉迷于优化提示词、堆工具链了，从今天开始，学习Harness Engineering，给你的Agent搭一套真正合格的驾驭系统。

你可以直接从learn-claude-code这个项目开始，克隆仓库，从Session 01的最小Agent Loop开始，亲手跑通第一个极简的Harness，一步步感受驾驭工程的魅力。

最后，用项目里的那句核心slogan，作为今天分享的结尾：

The model is the agent. The code is the harness. Build great harnesses. The agent will do the rest. （模型即智能体，代码即驾驭层。搭建优秀的驾驭系统，剩下的，交给Agent就好。）