【论文阅读】Continual Harness: Online Adaptation for Self-Improving Foundation Agents

快速了解部分

基础信息（英文）：

1.题目: Continual Harness: Online Adaptation for Self-Improving Foundation Agents

2.时间: 2026.05

3.机构: Princeton University, ARISE Foundation, Google DeepMind

4.3个英文关键词: Embodied Agents, Continual Learning, Agentic Harnesses

1句话通俗总结本文干了什么事情

本文开发了一套能让AI游戏角色在玩《宝可梦》时"自己教自己"怎么玩得更好的系统，不用每次失败后重头开始，而是像人一样从经验中积累技能和记忆，持续变强。

研究痛点：现有研究不足 / 要解决的具体问题

现在的AI在复杂的实体任务（比如玩游戏）中，通常需要人类专家手把手设计大量的规则和工具（Scaffolding）才能运行。如果把这些现成的辅助拿掉，AI就玩不转了。而且，现有的优化方法通常需要AI在每次学习后"重置"回初始状态重新开始，这导致AI无法学习那些只有在游戏后期才会遇到的复杂问题，也无法实现真正的持续自我进化。

核心方法：关键技术、模型或设计

提出 Continual Harness，一个无需重置（Reset-Free）的自我改进框架。它让AI在运行过程中，通过一个"修正器（Refiner）"实时分析刚才哪里做错了，然后当场修改自己的操作指南、创建新工具、更新记忆，实现边玩边学。

深入了解部分

作者想要表达什么

作者想证明，不需要人类预先设计复杂的专家系统，也不需要通过重置环境来训练。通过让AI在单次连续运行中不断自我反思和修改"Harness"（包含Prompt、Agent、Skill、Memory），就能让基础模型在复杂的长视野实体任务中实现自我进化，并达到接近专家系统的效果。

相比前人创新在哪里

去人类化与去重置化 ：以前的Prompt优化或Agent改进往往需要人类介入，或者需要在每次迭代后重置环境。本文实现了完全自动化且不重置环境的在线改进。
全状态在线编辑：不同于只优化Prompt的方法，它直接对系统Prompt、子Agent、技能库和记忆进行CRUD（增删改查）操作。
模型与Harness共学习：不仅Harness在变，还用这个过程产生的数据去微调开源模型本身，实现了模型和外部工具的共同进化。

解决方法/算法的通俗解释

想象你在玩一个很难的《宝可梦》游戏，一开始你什么攻略都不知道（Minimalist Harness）。你每玩一段时间（比如512步），就暂停一下，复盘刚才哪里卡住了（比如走路总是撞墙、打怪不会换宠）。

然后，你拿出笔记本，修改你的攻略（Prompt），写下新的操作宏（Skills），甚至给自己立个新的人设（Sub-agent），并记下刚才的教训（Memory）。下一次遇到类似情况，你就用更新后的攻略来玩。这个过程不需要游戏重启，你就在这一局里越活越久，越玩越强。

解决方法的具体做法

双循环架构 ：
- 内循环（玩）：Agent根据当前的Harness（包含Prompt、Skills等）在环境中行动。
- 外循环（改）：每运行F步，Refiner（通常和Agent是同一个Model）读取最近的轨迹，寻找失败信号（如原地打转、任务卡住）。
四步原地手术 ：Refiner对Harness进行四步修改：
- Prompt：重写系统提示词，加入新策略。
- Sub-agents：创建新Agent或删除无效Agent。
- Skills：将成功的操作序列固化为代码工具，修复工具有异常的代码。
- Memory：更新知识库，删除过时信息。
在线共学习：利用强模型（Teacher）在这个动态Harness中产生的数据，去微调弱模型（Student），让弱模型也能学会如何驾驭这个复杂的Harness。

基于前人的哪些方法

Gemini Plays Pokémon (GPP)：作者之前的项目，证明了通过人工干预Harness refinement可以通关，本文是将该过程自动化。
Prompt Optimization：借鉴了如GEPA等通过反馈优化Prompt的思想，但扩展到了更广的Harness组件。
Process Reward Models (PRM)：使用了类似的方法来打分轨迹，指导模型更新。

实验设置、数据、评估方式、结论

环境：《宝可梦：红/绿/火红/叶绿》等GBA游戏。输入仅为屏幕截图+简单的ASCII地图+按键。
对比：
- Minimalist Harness (min)：啥都没有的基线。
- Hand-engineered Expert Harness (expert)：人类精心设计的专家系统。
- Continual Harness (CH)：本文方法。
结论：
- 效率：CH在《宝可梦：红/绿》上大幅降低了按键成本（即更高效地通关），追回了大部分与专家系统之间的差距。
- 能力门槛：效果依赖于模型能力（Gemini Pro效果好，Flash次之，Flash-Lite太弱直接挂掉）。
- 开源模型：通过共学习，Gemma-4等开源模型也能在不重置的情况下持续进步。

提到的同类工作

Claude Code / OpenHands：用于代码领域的Agent Harness，本文试图将其扩展到实体游戏领域。
PokeAgent Challenge：提出了宝可梦作为基准测试，但依赖人工设计的工具。
GEPA：一种Prompt优化方法，但需要重置环境进行迭代。

和本文相关性最高的3个文献

Gemini Plays Pokémon (GPP) experiments：这是本文方法的直接前身，本文正是为了解决GPP中需要人工干预的问题而提出的。
The PokeAgent Challenge：确立了该领域的基准测试环境，本文所有的实验设置都是基于此挑战的。
GEPA (Reflective prompt evolution)：代表了现有的Prompt优化流派，本文在方法论上是对其的扩展和升级（从Prompt扩展到全Harness且无需重置）。