【论文阅读】RISE: Self-Improving Robot Policy with Compositional World Model

快速了解部分

基础信息(英文):

  1. 题目: RISE: Self-Improving Robot Policy with Compositional World Model
  2. 时间:2026.02
  3. 机构: The Chinese University of Hong Kong, Kinetix AI, Tsinghua University, Horizon Robotics 等
  4. 3个英文关键词: Compositional World Model, Reinforcement Learning, Self-improving Robot

1句话通俗总结本文干了什么事情

让机器人在"想象空间"里通过世界模型做梦练习,用预测未来+评估好坏的组合方式自我提升策略,避免真实世界中昂贵的试错成本。

研究痛点:现有研究不足 / 要解决的具体问题

  • VLA模型在contact-rich、动态操作任务中脆弱,小偏差会累积成失败
  • 物理世界做on-policy RL成本高:硬件贵、交互串行、手动reset费时
  • 现有世界模型要么视觉真实但动作不可控,要么奖励信号稀疏,无法支撑长时序策略优化

核心方法:关键技术、模型或研究设计(简要)

  • Compositional World Model:解耦dynamics prediction(预测未来观测)和value estimation(评估想象状态),各自用最适合的架构优化
  • Dynamics Model:基于Genie Envisioner视频Diffusion,Task-Centric Batching策略提升动作可控性
  • Value Model:从预训练VLA初始化,progress regression + TD learning联合训练,输出密集且对失败敏感的advantage信号
  • Self-Improving Loop:在想象空间迭代rollout生成→advantage计算→策略更新,零真实交互成本

深入了解部分

作者想要表达什么

世界模型可以成为真实世界操作任务的有效"学习环境",通过想象空间中的on-policy RL,能高效bootstrapping策略在high-dynamics、dexterous任务上的表现,实现scalable的self-improving。

相比前人创新在哪里

  1. 首次将learned world model作为真实世界manipulation的interactive training environment,而非仅用于planning或数据增强
  2. Compositional设计:dynamics和value解耦,避免单一架构兼顾多目标的妥协,dynamics专注可控生成,value专注密集评估
  3. 直接为action chunk输出advantage,无需模拟到终端状态获取稀疏reward,降低对长时序生成准确性的依赖
  4. Task-Centric Batching策略:预训练时优先同场景下的动作多样性,显著提升fine-tuning效率和动作可控性

解决方法/算法的通俗解释

机器人先学会"做梦":给定当前画面和动作,预测接下来会看到什么(dynamics);再学会"打分":看这个预测画面离成功还有多远(value);然后用"预测画面+打分"算出这个动作好不好(advantage);最后用这些想象出来的经验更新策略。全程在脑子里练,不用真动手。

解决方法的具体做法

  1. Dynamics Model训练:Genie Envisioner初始化→Agibot World+Galaxea大规模预训练(Task-Centric Batching)→任务数据fine-tune,Flow Matching损失,50步Euler采样
  2. Value Model训练:π0.5 VLA backbone初始化→前10k步progress regression学习时序单调性→后40k步加入TD learning区分成功/失败,输出标量value
  3. Advantage计算:对action chunk预测的H帧未来,取value均值减当前value,离散化为10个bin作为策略训练条件
  4. Policy Warm-up:offline数据(expert+rollout+correction)上训练advantage-conditioned策略,expert数据强制标最高advantage
  5. Self-Improving Loop:采样offline状态→策略+最优advantage提示生成动作→dynamics生成未来→value评估得实际advantage→混合offline数据训练策略→EMA更新rollout策略,迭代10k步

基于前人的哪些方法

  • Genie Envisioner视频Diffusion架构
  • π0.5预训练VLA backbone
  • Progress estimate(VLM as in-context value learner)
  • TD learning经典RL方法
  • Advantage-conditioned policy optimization(RECAP)
  • Flow matching策略训练(π系列)

实验设置、数据、评估方式、结论

  • 硬件:dual 7-DoF AgileX robot,30Hz控制,3视角观测(top+双wrist)
  • 任务:Dynamic Brick Sorting(移动传送带分拣)、Backpack Packing(柔性物体操作)、Box Closing(双手精密协调)
  • 数据:每任务2-3k expert演示 + 500-600 policy rollout,Box Closing额外540 DAgger修正
  • 评估:20次自主执行,Success Rate + 分阶段Score(满分10)
  • 结论:RISE成功率85%/85%/95%,相比RECAP等baseline绝对提升+35%/+45%/+35%;ablation验证Task-Centric Batching、progress+TD联合训练、online state+action整合的必要性

提到的同类工作

  • World Model方向:Dreamer系列、Genie、Cosmos、Ctrl-world、AdaWorld
  • VLA+RL方向:RECAP(π*0.6)、DSRL、VLA-RL、SimpleVLA-RL、GR-RL
  • 数据/仿真方向:LIBERO、RoboCasa、BridgeData、Agibot World、Galaxea

和本文相关性最高的3个文献

  1. RECAP (π*0.6): advantage-conditioned offline RL for VLA post-training,本文warm-up阶段直接借鉴
  2. Genie Envisioner: 视频Diffusion world model,本文dynamics model的初始化基础
  3. π0.5: 开源VLA backbone,本文policy和value model的共同初始化来源

我的

  1. 将world model作为simulator,支持on policy强化学习训练。
  2. 所谓Compositional world model 就是分2个,一个是视频生成模型作为simulator,一个是Value model用来打分。
  3. 所谓Task-Centric Batching 就是训视频生成的时候拿同一个场景下的训,别加其他场景的,过拟合在这个任务之下,然后对这个任务做RL。
相关推荐
传说故事4 小时前
【论文阅读】HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
论文阅读·人工智能·机器人·具身智能
冬奇Lab4 小时前
一天一个开源项目(第88篇):pi-mono - 极简主义的高性能 AI 编程助手
人工智能·agent·ai编程
java1234_小锋4 小时前
Spring AI 2.0 开发Java Agent智能体 - 新建 HelloWorld 项目
java·人工智能·spring·spring ai
Muyuan19984 小时前
26.Paper RAG Agent 展示面收口:截图与项目表达更新记录
人工智能·python·django·fastapi
qq_411262424 小时前
基于四博 ESP32-S3 + VB6824 打造 A1 AI 智能拍学机:视觉识别、语音交互与 AI 学习应用落地方案
人工智能·智能音箱
中海德--陈顺真4 小时前
HONEYWELL 扫描架控制板 51000398
运维·服务器·人工智能
数智前线4 小时前
零售连锁门店的柔性管理之困,海康云眸Claw如何破解?
人工智能
AI技术增长4 小时前
Pytorch图像去噪实战(十四):条件扩散模型图像去噪,让Diffusion根据带噪图恢复干净图
人工智能·pytorch·python
tangweiguo030519874 小时前
LangGraph 入门:多智能体工作流实战(阿里云百炼)
人工智能·python·langchain