【论文阅读】Continual Harness: Online Adaptation for Self-Improving Foundation Agents

快速了解部分

基础信息(英文):

1.题目: Continual Harness: Online Adaptation for Self-Improving Foundation Agents

2.时间: 2026.05

3.机构: Princeton University, ARISE Foundation, Google DeepMind

4.3个英文关键词: Embodied Agents, Continual Learning, Agentic Harnesses

1句话通俗总结本文干了什么事情

本文开发了一套能让AI游戏角色在玩《宝可梦》时"自己教自己"怎么玩得更好的系统,不用每次失败后重头开始,而是像人一样从经验中积累技能和记忆,持续变强。

研究痛点:现有研究不足 / 要解决的具体问题

现在的AI在复杂的实体任务(比如玩游戏)中,通常需要人类专家手把手设计大量的规则和工具(Scaffolding)才能运行。如果把这些现成的辅助拿掉,AI就玩不转了。而且,现有的优化方法通常需要AI在每次学习后"重置"回初始状态重新开始,这导致AI无法学习那些只有在游戏后期才会遇到的复杂问题,也无法实现真正的持续自我进化。

核心方法:关键技术、模型或设计

提出 Continual Harness,一个无需重置(Reset-Free)的自我改进框架。它让AI在运行过程中,通过一个"修正器(Refiner)"实时分析刚才哪里做错了,然后当场修改自己的操作指南、创建新工具、更新记忆,实现边玩边学。

深入了解部分

作者想要表达什么

作者想证明,不需要人类预先设计复杂的专家系统,也不需要通过重置环境来训练。通过让AI在单次连续运行中不断自我反思和修改"Harness"(包含Prompt、Agent、Skill、Memory),就能让基础模型在复杂的长视野实体任务中实现自我进化,并达到接近专家系统的效果。

相比前人创新在哪里

  1. 去人类化与去重置化 :以前的Prompt优化或Agent改进往往需要人类介入,或者需要在每次迭代后重置环境。本文实现了完全自动化且不重置环境的在线改进。
  2. 全状态在线编辑:不同于只优化Prompt的方法,它直接对系统Prompt、子Agent、技能库和记忆进行CRUD(增删改查)操作。
  3. 模型与Harness共学习:不仅Harness在变,还用这个过程产生的数据去微调开源模型本身,实现了模型和外部工具的共同进化。

解决方法/算法的通俗解释

想象你在玩一个很难的《宝可梦》游戏,一开始你什么攻略都不知道(Minimalist Harness)。你每玩一段时间(比如512步),就暂停一下,复盘刚才哪里卡住了(比如走路总是撞墙、打怪不会换宠)。

然后,你拿出笔记本,修改你的攻略(Prompt),写下新的操作宏(Skills),甚至给自己立个新的人设(Sub-agent),并记下刚才的教训(Memory)。下一次遇到类似情况,你就用更新后的攻略来玩。这个过程不需要游戏重启,你就在这一局里越活越久,越玩越强。

解决方法的具体做法

  1. 双循环架构
    • 内循环(玩):Agent根据当前的Harness(包含Prompt、Skills等)在环境中行动。
    • 外循环(改):每运行F步,Refiner(通常和Agent是同一个Model)读取最近的轨迹,寻找失败信号(如原地打转、任务卡住)。
  2. 四步原地手术 :Refiner对Harness进行四步修改:
    • Prompt:重写系统提示词,加入新策略。
    • Sub-agents:创建新Agent或删除无效Agent。
    • Skills:将成功的操作序列固化为代码工具,修复工具有异常的代码。
    • Memory:更新知识库,删除过时信息。
  3. 在线共学习:利用强模型(Teacher)在这个动态Harness中产生的数据,去微调弱模型(Student),让弱模型也能学会如何驾驭这个复杂的Harness。

基于前人的哪些方法

  1. Gemini Plays Pokémon (GPP):作者之前的项目,证明了通过人工干预Harness refinement可以通关,本文是将该过程自动化。
  2. Prompt Optimization:借鉴了如GEPA等通过反馈优化Prompt的思想,但扩展到了更广的Harness组件。
  3. Process Reward Models (PRM):使用了类似的方法来打分轨迹,指导模型更新。

实验设置、数据、评估方式、结论

  • 环境:《宝可梦:红/绿/火红/叶绿》等GBA游戏。输入仅为屏幕截图+简单的ASCII地图+按键。
  • 对比
    • Minimalist Harness (min):啥都没有的基线。
    • Hand-engineered Expert Harness (expert):人类精心设计的专家系统。
    • Continual Harness (CH):本文方法。
  • 结论
    • 效率:CH在《宝可梦:红/绿》上大幅降低了按键成本(即更高效地通关),追回了大部分与专家系统之间的差距。
    • 能力门槛:效果依赖于模型能力(Gemini Pro效果好,Flash次之,Flash-Lite太弱直接挂掉)。
    • 开源模型:通过共学习,Gemma-4等开源模型也能在不重置的情况下持续进步。

提到的同类工作

  1. Claude Code / OpenHands:用于代码领域的Agent Harness,本文试图将其扩展到实体游戏领域。
  2. PokeAgent Challenge:提出了宝可梦作为基准测试,但依赖人工设计的工具。
  3. GEPA:一种Prompt优化方法,但需要重置环境进行迭代。

和本文相关性最高的3个文献

  1. Gemini Plays Pokémon (GPP) experiments:这是本文方法的直接前身,本文正是为了解决GPP中需要人工干预的问题而提出的。
  2. The PokeAgent Challenge:确立了该领域的基准测试环境,本文所有的实验设置都是基于此挑战的。
  3. GEPA (Reflective prompt evolution):代表了现有的Prompt优化流派,本文在方法论上是对其的扩展和升级(从Prompt扩展到全Harness且无需重置)。
相关推荐
jinxindeep6 分钟前
CVPR26最佳论文提名:NitroGen,面向通用游戏智能体的 视觉-动作基础模型
人工智能·游戏
小雨下雨的雨4 小时前
井字棋AI机器人实现详解 - Minimax算法实战-鸿蒙PC Electron框架完成
前端·人工智能·算法·华为·electron·鸿蒙
我没胡说八道6 小时前
高校论文AI检测优化工具对比研究与实测分析(2026)
人工智能·深度学习·机器学习·计算机视觉·aigc·论文
秦亚伟6 小时前
AI浪潮重塑融资租赁行业新格局
人工智能
love530love6 小时前
LiveTalking 数字人项目 Windows 部署完全指南(EPGF 架构)
人工智能·windows·python·架构·livetalking·epgf
元启数宇6 小时前
喷淋AI布点实战:8小时人工布点→20分钟自动出图
人工智能
哈哈,柳暗花明6 小时前
人工智能专业术语详解(H)
人工智能·专业术语
圣殿骑士-Khtangc6 小时前
AI 编程工具 2026 实战横评:Cursor 3 vs Claude Code vs Copilot,开发者选型完全指南
人工智能·copilot
云器科技6 小时前
云器Lakehouse 2026年5月版本发布:拥抱 AI Agent,重塑数据智能开发新范式
人工智能
小鹰-上海鹰谷-电子实验记录本6 小时前
第六届党建引领科创生态座谈会 | 邓光辉博士出席分享AI赋能创新药科研新范式
人工智能·ai·电子实验记录本·药企合规