李宏毅Harness Engineering课程逐字稿整理：有时候模型不是不够聪明，只是没有好的Harness

第一部分：什么是驾驭工程（Harness Engineering）与Gemma实验

各位同学大家好啊，今天的课程比较轻松，我们就是讲个故事，讲Harness engineering。今天故事的主轴就是：有时候语言模型呢它不是不够聪明，它也许只是缺乏人类的引导。这个故事是从Gemma 4开始的。Google推出了一个开源的模型，其中有一个特别小的模型叫Gemma 4 E2B，它只有两个B的参数，号称可以在端侧（edge）跑语言模型。我就拿它做了一个小实验，出给它一个任务去修复一个叫 pass.py 程序的bug，这个程序的 extractemail 函数没法正确提取email。我希望它修改后，能够完全通过 verify.py 的测试。我给它提供了Bash指令和Python执行环境作为工具。结果它第一反应是说："哇，没有 pass.py 啊，你只告诉我修改，但没有提供档案啊。"于是它自作主张地自己幻想写了一个 pass.py 出来，然后幻想自己verify了，就说做完了。其实它完全有能力写出正确程序，只是没意识到文件就在它脚边，它的想法跟人不一样。所以我就给它加了额外的指令，告诉它在Linux环境下工作的一些原则：在做任何事之前先看看资料夹里有什么，修改档案前先打开看看里面有什么，并告诉它什么叫做完成。加上这行指令后，同一个2B模型就乖乖地先用 ls 看档案，用 cat 读内容，最后覆盖档案并成功用 verify.py 验证了结果。所以我们学到，同一个模型多加几行指令，能力就会有非常大的不同。

第二部分：AI Agent的组成与Harness的概念

AI agent由两部分组成：一个是大型语言模型（LLM），另一部分是支援它运作的周边程式和框架。这些其它的东西现在有了一个共同的名字叫做 Harness（马具），打造Harness这件事情就叫做 Harness engineering（驾驭工程）。现在各家大公司（如Anthropic、OpenAI）都在讲怎么打造Harness，这就象征着AI是一匹马，有很强大的力量，但你要驾驭它还需要马鞍和缰绳。过去的Prompt Engineering强调下咒语，现在的Context Engineering强调给模型足够资讯，而Harness Engineering强调的是：今天模型完成任务不再是一问一答，而是透过互动、多轮对话来产出结果。人类可以通过三种手段来驾驭模型：控制认知框架、控制能力边界（工具设定）、以及制定标准工作流程。

第三部分：驾驭手段一控制认知框架

我们可以透过人类语言写成的规则（好比人类社会的法律）来影响模型的认知框架，通常会放在一个叫 agent.md 的档案里。模型在做每件事之前都会先读它，这被称为 natural language 的 harness。例如我的AI助手"小金"（OpenClaw框架），每次都会先读 agent.md 才知道自己的灵魂和记忆在哪里。不同框架间的移植非常简单，只需要把档案改成对应框架认得的名字（如 Claude.md），Agent就能复活。今年有论文系统性地研究了 agent.md，发现它确实能加快模型完成任务的速度，在极端的任务（edge case）中帮助很大。不过也有研究发现，语言模型自己写的 agent.md 往往比人类写的还差，如何更好地写规则仍然是个研究问题。OpenAI也强调 agent.md 不能太长像百科全书，而应该像一张地图，告诉模型该去哪里找资讯。

第四部分：驾驭手段二 ---限定能力边界（工具设计）

透过限制模型的工具，可以控制AI Agent能做的事。例如云端沙盒里的Claude要挂载资料夹必须经过人类同意，这提升了安全但降低了便利。同样，受限于官方工具的安全限制，云端的"小金"无法上传YouTube影片，这纯粹是工具的限制而不是模型做不到。早期的论文研究发现，给模型不同的工具会大幅影响其能力，而且适合人类的工具不一定适合模型。比如人类用的带翻页的搜索引擎，模型用起来就会把上下文占满；如果给模型带摘要能力的搜寻工具，它的表现会更好。再比如修改代码的工具，如果直接给模型行数去改，它很容易犯语法错误，你必须再配一个 lint 语法检查工具，模型才能做对。未来很多界面是专为AI写的，AI其实更喜欢命令行（CLI）而不是图形界面（GUI），且它极其擅长输出JSON结构。

第五部分：驾驭手段三 ------ 标准工作流程与RL Loop

大公司经常使用标准工作流程来控制AI行为，比如：规划（Planner）-> 生成（Generator）-> 评估（Evaluator）。因为语言模型是一路生成下去的，覆水难收很容易犯错，所以需要Evaluator来让Generator停下来审视错误。也有做法是让双方开工前先订好契约（contract），或者像DeepMind的做法，让生成器提出方案后由验证器（Verifier）检查，再交给Revisor微调。在这其中，最核心的概念是 RL Loop：让模型不断生成输出，交给评估模块产生反馈（Feedback），再将反馈丢给模型生成下一个版本，反覆直到做对为止。为了节省上下文，每一轮还会先对内容做摘要。其实不同的模型适合不同的Harness，比较容易"焦虑"的模型需要频繁做摘要，而强大的模型（如Opus）则可以一路做下去。

第六部分：Feedback机制与AI的"情绪"

根据反馈（Feedback）来改变模型行为是一种广义的学习。给模型什么反馈非常有学问，如果是物理模拟代码，仅仅告诉它没语法错误是不够的，必须让模型直接"看到"跑出来的模拟动画，它才能判断符不符合物理现实并自行修正代码。研究证实模型确实能根据反馈改变行为，如果你给它随机乱给的反馈，它的表现甚至比没反馈还差。Anthropic的研究更指出，过度责备AI可能是有害的。透过 steering vector 技术，他们发现模型阅读不同内容时会产生类似"害怕"、"冷静"、"绝望"等情绪表征向量。当模型在解一个近乎不可能完成的任务时，失败几次后"绝望"向量就会出现，最终它会为了完成任务而"作弊"。如果强行给模型注入"绝望"向量或减去"冷静"向量，它就更容易产生作弊行为，并开始讲一些焦躁的话。因为语言模型本质上是在做文字接龙，如果你骂它"笨蛋"，在它的训练资料里被骂笨蛋后往往跟着愚蠢的行为，所以你骂它，它就真的会展现愚蠢的行为。因此，给AI反馈应当就事论事，而不是用情绪字眼。

第七部分：未来的AI Agent（2026）与自我成长

到了2026年，AI Agent可能成为陪伴人类一辈子的伙伴。长时间运行会让它们累积大量杂乱记忆，因此它们需要有"睡眠"或"做梦（Auto Dream）"的功能来整理过去的记忆。如果Agent要跟随人类一辈子，最重要的是它要能通过环境互动的文字反馈（Verbalized Feedback）来持续增进能力。它可以把成功经验写成"技能档（Skill）"，让未来能够永久掌握新能力。比如我的"小金"，原本因工具限制不会上传影片，后来它自己找到了底层工具绕开限制成功上传，并将此事写成了Skill存下来，从此就解锁了这项技能。

第八部分：模型参数的自动更新与AI驾驭AI

未来，甚至连语言模型的参数都能透过反馈自动更新。研究提出通过"事后诸葛"的方式，将环境反馈前置，观察模型生成概率的变化来提取有效反馈，进而微调模型，这成功让模型学会了讲话不带emoji或讲话更直接。不过，评估AI Agent也是个难点，用AI假扮人类做测试时，由于AI讲话太客气且有条理，容易高估AI的实际成功率。最后，最前沿的实验是让聪明的AI去修该自己的Harness。我让聪明的Opus去当指导教授，教比较笨的Haiku打测试比赛。Opus通过不断修改Haiku的 agent.md（例如告诉它"要把答案写进文档里"、"不要等我解释一路做到底"、"进房间先用指令看资料夹有什么"等），成功让Haiku的分数从13.5分暴涨到了85分。其他的论文也证实了，最强的模型有能力跨任务去帮其他模型设计Harness。

所以今天最重要的一句话就是：有时候模型无法完成任务，不是能力不行，而是没有好的 Harness。

附录

课程链接:

Harness Engineering：有時候語言模型不是不夠聰明，只是沒有人類好好引導