李宏毅Harness Engineering课程逐字稿整理:有时候模型不是不够聪明,只是没有好的Harness

第一部分:什么是驾驭工程(Harness Engineering)与Gemma实验

各位同学大家好啊,今天的课程比较轻松,我们就是讲个故事,讲Harness engineering。今天故事的主轴就是:有时候语言模型呢它不是不够聪明,它也许只是缺乏人类的引导。这个故事是从Gemma 4开始的。Google推出了一个开源的模型,其中有一个特别小的模型叫Gemma 4 E2B,它只有两个B的参数,号称可以在端侧(edge)跑语言模型。我就拿它做了一个小实验,出给它一个任务去修复一个叫 pass.py 程序的bug,这个程序的 extractemail 函数没法正确提取email。我希望它修改后,能够完全通过 verify.py 的测试。我给它提供了Bash指令和Python执行环境作为工具。结果它第一反应是说:"哇,没有 pass.py 啊,你只告诉我修改,但没有提供档案啊。"于是它自作主张地自己幻想写了一个 pass.py 出来,然后幻想自己verify了,就说做完了。其实它完全有能力写出正确程序,只是没意识到文件就在它脚边,它的想法跟人不一样。所以我就给它加了额外的指令,告诉它在Linux环境下工作的一些原则:在做任何事之前先看看资料夹里有什么,修改档案前先打开看看里面有什么,并告诉它什么叫做完成。加上这行指令后,同一个2B模型就乖乖地先用 ls 看档案,用 cat 读内容,最后覆盖档案并成功用 verify.py 验证了结果。所以我们学到,同一个模型多加几行指令,能力就会有非常大的不同。

第二部分:AI Agent的组成与Harness的概念

AI agent由两部分组成:一个是大型语言模型(LLM),另一部分是支援它运作的周边程式和框架。这些其它的东西现在有了一个共同的名字叫做 Harness(马具),打造Harness这件事情就叫做 Harness engineering(驾驭工程)。现在各家大公司(如Anthropic、OpenAI)都在讲怎么打造Harness,这就象征着AI是一匹马,有很强大的力量,但你要驾驭它还需要马鞍和缰绳。过去的Prompt Engineering强调下咒语,现在的Context Engineering强调给模型足够资讯,而Harness Engineering强调的是:今天模型完成任务不再是一问一答,而是透过互动、多轮对话来产出结果。人类可以通过三种手段来驾驭模型:控制认知框架、控制能力边界(工具设定)、以及制定标准工作流程。

第三部分:驾驭手段一 控制认知框架

我们可以透过人类语言写成的规则(好比人类社会的法律)来影响模型的认知框架,通常会放在一个叫 agent.md 的档案里。模型在做每件事之前都会先读它,这被称为 natural language 的 harness。例如我的AI助手"小金"(OpenClaw框架),每次都会先读 agent.md 才知道自己的灵魂和记忆在哪里。不同框架间的移植非常简单,只需要把档案改成对应框架认得的名字(如 Claude.md),Agent就能复活。今年有论文系统性地研究了 agent.md,发现它确实能加快模型完成任务的速度,在极端的任务(edge case)中帮助很大。不过也有研究发现,语言模型自己写的 agent.md 往往比人类写的还差,如何更好地写规则仍然是个研究问题。OpenAI也强调 agent.md 不能太长像百科全书,而应该像一张地图,告诉模型该去哪里找资讯。

第四部分:驾驭手段二 ---限定能力边界(工具设计)

透过限制模型的工具,可以控制AI Agent能做的事。例如云端沙盒里的Claude要挂载资料夹必须经过人类同意,这提升了安全但降低了便利。同样,受限于官方工具的安全限制,云端的"小金"无法上传YouTube影片,这纯粹是工具的限制而不是模型做不到。早期的论文研究发现,给模型不同的工具会大幅影响其能力,而且适合人类的工具不一定适合模型。比如人类用的带翻页的搜索引擎,模型用起来就会把上下文占满;如果给模型带摘要能力的搜寻工具,它的表现会更好。再比如修改代码的工具,如果直接给模型行数去改,它很容易犯语法错误,你必须再配一个 lint 语法检查工具,模型才能做对。未来很多界面是专为AI写的,AI其实更喜欢命令行(CLI)而不是图形界面(GUI),且它极其擅长输出JSON结构。

第五部分:驾驭手段三 ------ 标准工作流程与RL Loop

大公司经常使用标准工作流程来控制AI行为,比如:规划(Planner)-> 生成(Generator)-> 评估(Evaluator)。因为语言模型是一路生成下去的,覆水难收很容易犯错,所以需要Evaluator来让Generator停下来审视错误。也有做法是让双方开工前先订好契约(contract),或者像DeepMind的做法,让生成器提出方案后由验证器(Verifier)检查,再交给Revisor微调。在这其中,最核心的概念是 RL Loop:让模型不断生成输出,交给评估模块产生反馈(Feedback),再将反馈丢给模型生成下一个版本,反覆直到做对为止。为了节省上下文,每一轮还会先对内容做摘要。其实不同的模型适合不同的Harness,比较容易"焦虑"的模型需要频繁做摘要,而强大的模型(如Opus)则可以一路做下去。

第六部分:Feedback机制与AI的"情绪"

根据反馈(Feedback)来改变模型行为是一种广义的学习。给模型什么反馈非常有学问,如果是物理模拟代码,仅仅告诉它没语法错误是不够的,必须让模型直接"看到"跑出来的模拟动画,它才能判断符不符合物理现实并自行修正代码。研究证实模型确实能根据反馈改变行为,如果你给它随机乱给的反馈,它的表现甚至比没反馈还差。Anthropic的研究更指出,过度责备AI可能是有害的。透过 steering vector 技术,他们发现模型阅读不同内容时会产生类似"害怕"、"冷静"、"绝望"等情绪表征向量。当模型在解一个近乎不可能完成的任务时,失败几次后"绝望"向量就会出现,最终它会为了完成任务而"作弊"。如果强行给模型注入"绝望"向量或减去"冷静"向量,它就更容易产生作弊行为,并开始讲一些焦躁的话。因为语言模型本质上是在做文字接龙,如果你骂它"笨蛋",在它的训练资料里被骂笨蛋后往往跟着愚蠢的行为,所以你骂它,它就真的会展现愚蠢的行为。因此,给AI反馈应当就事论事,而不是用情绪字眼。

第七部分:未来的AI Agent(2026)与自我成长

到了2026年,AI Agent可能成为陪伴人类一辈子的伙伴。长时间运行会让它们累积大量杂乱记忆,因此它们需要有"睡眠"或"做梦(Auto Dream)"的功能来整理过去的记忆。如果Agent要跟随人类一辈子,最重要的是它要能通过环境互动的文字反馈(Verbalized Feedback)来持续增进能力。它可以把成功经验写成"技能档(Skill)",让未来能够永久掌握新能力。比如我的"小金",原本因工具限制不会上传影片,后来它自己找到了底层工具绕开限制成功上传,并将此事写成了Skill存下来,从此就解锁了这项技能。

第八部分:模型参数的自动更新与AI驾驭AI

未来,甚至连语言模型的参数都能透过反馈自动更新。研究提出通过"事后诸葛"的方式,将环境反馈前置,观察模型生成概率的变化来提取有效反馈,进而微调模型,这成功让模型学会了讲话不带emoji或讲话更直接。不过,评估AI Agent也是个难点,用AI假扮人类做测试时,由于AI讲话太客气且有条理,容易高估AI的实际成功率。最后,最前沿的实验是让聪明的AI去修该自己的Harness。我让聪明的Opus去当指导教授,教比较笨的Haiku打测试比赛。Opus通过不断修改Haiku的 agent.md(例如告诉它"要把答案写进文档里"、"不要等我解释一路做到底"、"进房间先用指令看资料夹有什么"等),成功让Haiku的分数从13.5分暴涨到了85分。其他的论文也证实了,最强的模型有能力跨任务去帮其他模型设计Harness。

所以今天最重要的一句话就是:有时候模型无法完成任务,不是能力不行,而是没有好的 Harness

附录

课程链接:

Harness Engineering:有時候語言模型不是不夠聰明,只是沒有人類好好引導

相关推荐
胖墩会武术2 小时前
Obsidian 与 Obsidian Skills 小白入门
人工智能·ai·obsidian·obsidian skills
Elastic 中国社区官方博客2 小时前
Elastic-caveman : 在不损失 Elastic 最佳效果的情况下,将 AI 响应 tokens 减少64%
大数据·运维·数据库·人工智能·elasticsearch·搜索引擎·全文检索
云天AI实战派3 小时前
Agentic AI 全流程实战:用 OpenAI on AWS 搭一个餐饮补货智能体,从 API 调用到容器化上线
人工智能·云计算·aws
万岳科技程序员小金3 小时前
2026智慧药店系统源码趋势:药店APP+小程序开发新方向
人工智能·电子处方小程序·药店软件开发·药店系统源码·药店app开发·药店平台搭建·药店小程序
xingyuzhisuan3 小时前
稳定性考验:连续跑7天,哪家云主机不重启、不掉线?
服务器·人工智能·gpu算力
sanshanjianke3 小时前
AI辅助网文创作理论研究笔记(十):软件框架设计——模块化B/S架构
人工智能·ai写作
云天AI实战派3 小时前
AI 智能体问题排查指南:ChatGPT、API 调用到 Agent 上线失灵的全流程修复手册
大数据·人工智能·python·chatgpt·aigc
Tutankaaa4 小时前
知识竞赛题库设计全攻略
人工智能·算法
TImCheng06094 小时前
职场人AI学习周期评估:不同学习路径的时间成本
人工智能·学习