快速了解部分
基础信息(英文):
1.题目: Continual Harness: Online Adaptation for Self-Improving Foundation Agents
2.时间: 2026.05
3.机构: Princeton University, ARISE Foundation, Google DeepMind
4.3个英文关键词: Embodied Agents, Continual Learning, Agentic Harnesses
1句话通俗总结本文干了什么事情
本文开发了一套能让AI游戏角色在玩《宝可梦》时"自己教自己"怎么玩得更好的系统,不用每次失败后重头开始,而是像人一样从经验中积累技能和记忆,持续变强。
研究痛点:现有研究不足 / 要解决的具体问题
现在的AI在复杂的实体任务(比如玩游戏)中,通常需要人类专家手把手设计大量的规则和工具(Scaffolding)才能运行。如果把这些现成的辅助拿掉,AI就玩不转了。而且,现有的优化方法通常需要AI在每次学习后"重置"回初始状态重新开始,这导致AI无法学习那些只有在游戏后期才会遇到的复杂问题,也无法实现真正的持续自我进化。
核心方法:关键技术、模型或设计
提出 Continual Harness,一个无需重置(Reset-Free)的自我改进框架。它让AI在运行过程中,通过一个"修正器(Refiner)"实时分析刚才哪里做错了,然后当场修改自己的操作指南、创建新工具、更新记忆,实现边玩边学。
深入了解部分
作者想要表达什么
作者想证明,不需要人类预先设计复杂的专家系统,也不需要通过重置环境来训练。通过让AI在单次连续运行中不断自我反思和修改"Harness"(包含Prompt、Agent、Skill、Memory),就能让基础模型在复杂的长视野实体任务中实现自我进化,并达到接近专家系统的效果。
相比前人创新在哪里
- 去人类化与去重置化 :以前的Prompt优化或Agent改进往往需要人类介入,或者需要在每次迭代后重置环境。本文实现了完全自动化且不重置环境的在线改进。
- 全状态在线编辑:不同于只优化Prompt的方法,它直接对系统Prompt、子Agent、技能库和记忆进行CRUD(增删改查)操作。
- 模型与Harness共学习:不仅Harness在变,还用这个过程产生的数据去微调开源模型本身,实现了模型和外部工具的共同进化。
解决方法/算法的通俗解释
想象你在玩一个很难的《宝可梦》游戏,一开始你什么攻略都不知道(Minimalist Harness)。你每玩一段时间(比如512步),就暂停一下,复盘刚才哪里卡住了(比如走路总是撞墙、打怪不会换宠)。
然后,你拿出笔记本,修改你的攻略(Prompt),写下新的操作宏(Skills),甚至给自己立个新的人设(Sub-agent),并记下刚才的教训(Memory)。下一次遇到类似情况,你就用更新后的攻略来玩。这个过程不需要游戏重启,你就在这一局里越活越久,越玩越强。
解决方法的具体做法
- 双循环架构 :
- 内循环(玩):Agent根据当前的Harness(包含Prompt、Skills等)在环境中行动。
- 外循环(改):每运行F步,Refiner(通常和Agent是同一个Model)读取最近的轨迹,寻找失败信号(如原地打转、任务卡住)。
- 四步原地手术 :Refiner对Harness进行四步修改:
- Prompt:重写系统提示词,加入新策略。
- Sub-agents:创建新Agent或删除无效Agent。
- Skills:将成功的操作序列固化为代码工具,修复工具有异常的代码。
- Memory:更新知识库,删除过时信息。
- 在线共学习:利用强模型(Teacher)在这个动态Harness中产生的数据,去微调弱模型(Student),让弱模型也能学会如何驾驭这个复杂的Harness。
基于前人的哪些方法
- Gemini Plays Pokémon (GPP):作者之前的项目,证明了通过人工干预Harness refinement可以通关,本文是将该过程自动化。
- Prompt Optimization:借鉴了如GEPA等通过反馈优化Prompt的思想,但扩展到了更广的Harness组件。
- Process Reward Models (PRM):使用了类似的方法来打分轨迹,指导模型更新。
实验设置、数据、评估方式、结论
- 环境:《宝可梦:红/绿/火红/叶绿》等GBA游戏。输入仅为屏幕截图+简单的ASCII地图+按键。
- 对比 :
- Minimalist Harness (min):啥都没有的基线。
- Hand-engineered Expert Harness (expert):人类精心设计的专家系统。
- Continual Harness (CH):本文方法。
- 结论 :
- 效率:CH在《宝可梦:红/绿》上大幅降低了按键成本(即更高效地通关),追回了大部分与专家系统之间的差距。
- 能力门槛:效果依赖于模型能力(Gemini Pro效果好,Flash次之,Flash-Lite太弱直接挂掉)。
- 开源模型:通过共学习,Gemma-4等开源模型也能在不重置的情况下持续进步。
提到的同类工作
- Claude Code / OpenHands:用于代码领域的Agent Harness,本文试图将其扩展到实体游戏领域。
- PokeAgent Challenge:提出了宝可梦作为基准测试,但依赖人工设计的工具。
- GEPA:一种Prompt优化方法,但需要重置环境进行迭代。
和本文相关性最高的3个文献
- Gemini Plays Pokémon (GPP) experiments:这是本文方法的直接前身,本文正是为了解决GPP中需要人工干预的问题而提出的。
- The PokeAgent Challenge:确立了该领域的基准测试环境,本文所有的实验设置都是基于此挑战的。
- GEPA (Reflective prompt evolution):代表了现有的Prompt优化流派,本文在方法论上是对其的扩展和升级(从Prompt扩展到全Harness且无需重置)。