【论文阅读】Continual Harness: Online Adaptation for Self-Improving Foundation Agents

快速了解部分

基础信息(英文):

1.题目: Continual Harness: Online Adaptation for Self-Improving Foundation Agents

2.时间: 2026.05

3.机构: Princeton University, ARISE Foundation, Google DeepMind

4.3个英文关键词: Embodied Agents, Continual Learning, Agentic Harnesses

1句话通俗总结本文干了什么事情

本文开发了一套能让AI游戏角色在玩《宝可梦》时"自己教自己"怎么玩得更好的系统,不用每次失败后重头开始,而是像人一样从经验中积累技能和记忆,持续变强。

研究痛点:现有研究不足 / 要解决的具体问题

现在的AI在复杂的实体任务(比如玩游戏)中,通常需要人类专家手把手设计大量的规则和工具(Scaffolding)才能运行。如果把这些现成的辅助拿掉,AI就玩不转了。而且,现有的优化方法通常需要AI在每次学习后"重置"回初始状态重新开始,这导致AI无法学习那些只有在游戏后期才会遇到的复杂问题,也无法实现真正的持续自我进化。

核心方法:关键技术、模型或设计

提出 Continual Harness,一个无需重置(Reset-Free)的自我改进框架。它让AI在运行过程中,通过一个"修正器(Refiner)"实时分析刚才哪里做错了,然后当场修改自己的操作指南、创建新工具、更新记忆,实现边玩边学。

深入了解部分

作者想要表达什么

作者想证明,不需要人类预先设计复杂的专家系统,也不需要通过重置环境来训练。通过让AI在单次连续运行中不断自我反思和修改"Harness"(包含Prompt、Agent、Skill、Memory),就能让基础模型在复杂的长视野实体任务中实现自我进化,并达到接近专家系统的效果。

相比前人创新在哪里

  1. 去人类化与去重置化 :以前的Prompt优化或Agent改进往往需要人类介入,或者需要在每次迭代后重置环境。本文实现了完全自动化且不重置环境的在线改进。
  2. 全状态在线编辑:不同于只优化Prompt的方法,它直接对系统Prompt、子Agent、技能库和记忆进行CRUD(增删改查)操作。
  3. 模型与Harness共学习:不仅Harness在变,还用这个过程产生的数据去微调开源模型本身,实现了模型和外部工具的共同进化。

解决方法/算法的通俗解释

想象你在玩一个很难的《宝可梦》游戏,一开始你什么攻略都不知道(Minimalist Harness)。你每玩一段时间(比如512步),就暂停一下,复盘刚才哪里卡住了(比如走路总是撞墙、打怪不会换宠)。

然后,你拿出笔记本,修改你的攻略(Prompt),写下新的操作宏(Skills),甚至给自己立个新的人设(Sub-agent),并记下刚才的教训(Memory)。下一次遇到类似情况,你就用更新后的攻略来玩。这个过程不需要游戏重启,你就在这一局里越活越久,越玩越强。

解决方法的具体做法

  1. 双循环架构
    • 内循环(玩):Agent根据当前的Harness(包含Prompt、Skills等)在环境中行动。
    • 外循环(改):每运行F步,Refiner(通常和Agent是同一个Model)读取最近的轨迹,寻找失败信号(如原地打转、任务卡住)。
  2. 四步原地手术 :Refiner对Harness进行四步修改:
    • Prompt:重写系统提示词,加入新策略。
    • Sub-agents:创建新Agent或删除无效Agent。
    • Skills:将成功的操作序列固化为代码工具,修复工具有异常的代码。
    • Memory:更新知识库,删除过时信息。
  3. 在线共学习:利用强模型(Teacher)在这个动态Harness中产生的数据,去微调弱模型(Student),让弱模型也能学会如何驾驭这个复杂的Harness。

基于前人的哪些方法

  1. Gemini Plays Pokémon (GPP):作者之前的项目,证明了通过人工干预Harness refinement可以通关,本文是将该过程自动化。
  2. Prompt Optimization:借鉴了如GEPA等通过反馈优化Prompt的思想,但扩展到了更广的Harness组件。
  3. Process Reward Models (PRM):使用了类似的方法来打分轨迹,指导模型更新。

实验设置、数据、评估方式、结论

  • 环境:《宝可梦:红/绿/火红/叶绿》等GBA游戏。输入仅为屏幕截图+简单的ASCII地图+按键。
  • 对比
    • Minimalist Harness (min):啥都没有的基线。
    • Hand-engineered Expert Harness (expert):人类精心设计的专家系统。
    • Continual Harness (CH):本文方法。
  • 结论
    • 效率:CH在《宝可梦:红/绿》上大幅降低了按键成本(即更高效地通关),追回了大部分与专家系统之间的差距。
    • 能力门槛:效果依赖于模型能力(Gemini Pro效果好,Flash次之,Flash-Lite太弱直接挂掉)。
    • 开源模型:通过共学习,Gemma-4等开源模型也能在不重置的情况下持续进步。

提到的同类工作

  1. Claude Code / OpenHands:用于代码领域的Agent Harness,本文试图将其扩展到实体游戏领域。
  2. PokeAgent Challenge:提出了宝可梦作为基准测试,但依赖人工设计的工具。
  3. GEPA:一种Prompt优化方法,但需要重置环境进行迭代。

和本文相关性最高的3个文献

  1. Gemini Plays Pokémon (GPP) experiments:这是本文方法的直接前身,本文正是为了解决GPP中需要人工干预的问题而提出的。
  2. The PokeAgent Challenge:确立了该领域的基准测试环境,本文所有的实验设置都是基于此挑战的。
  3. GEPA (Reflective prompt evolution):代表了现有的Prompt优化流派,本文在方法论上是对其的扩展和升级(从Prompt扩展到全Harness且无需重置)。
相关推荐
DianSan_ERP1 小时前
自研电商架构:一套API安全对接60+平台
大数据·运维·数据库·人工智能·安全·架构
m0_617493942 小时前
OpenCV报错解决:cornerSubPix断言失败 src.channels() == 1 的终极指南
人工智能·opencv·计算机视觉
大模型最新论文速读2 小时前
CIPO:把失败的推理轨迹变成纠错教材
人工智能
没有梦想的咸鱼185-1037-16632 小时前
【双AI论文写作】基于claude code、codex双AI协同论文写作撰写与质量校准:从“数据分析→论文初稿→交叉审稿“全流程
人工智能·数据分析·ai写作
bloxed2 小时前
【AI大模型--NumPy-02】-数组创建与高级索引完全指南
人工智能·numpy
ACP广源盛139246256732 小时前
IX8024 对标 ASM2824 @ACP#搭配昆仑芯 P800 构建 AI 服务器 PCIe4.0 高速互联架构
网络·人工智能·嵌入式硬件·电脑
一切皆是因缘际会2 小时前
AI Agent落地困局与突破:从技术架构到企业解析
数据结构·人工智能·算法·架构
DisonTangor2 小时前
【SIGGRAPH 2026】Pixal3D: 基于图像的像素对齐三维生成
人工智能·3d·开源·aigc
宇擎智脑科技2 小时前
如果 HTML 成为大模型标准输出格式,训练体系需要怎么变?
人工智能