【论文阅读】RISE: Self-Improving Robot Policy with Compositional World Model

快速了解部分

基础信息(英文):

  1. 题目: RISE: Self-Improving Robot Policy with Compositional World Model
  2. 时间:2026.02
  3. 机构: The Chinese University of Hong Kong, Kinetix AI, Tsinghua University, Horizon Robotics 等
  4. 3个英文关键词: Compositional World Model, Reinforcement Learning, Self-improving Robot

1句话通俗总结本文干了什么事情

让机器人在"想象空间"里通过世界模型做梦练习,用预测未来+评估好坏的组合方式自我提升策略,避免真实世界中昂贵的试错成本。

研究痛点:现有研究不足 / 要解决的具体问题

  • VLA模型在contact-rich、动态操作任务中脆弱,小偏差会累积成失败
  • 物理世界做on-policy RL成本高:硬件贵、交互串行、手动reset费时
  • 现有世界模型要么视觉真实但动作不可控,要么奖励信号稀疏,无法支撑长时序策略优化

核心方法:关键技术、模型或研究设计(简要)

  • Compositional World Model:解耦dynamics prediction(预测未来观测)和value estimation(评估想象状态),各自用最适合的架构优化
  • Dynamics Model:基于Genie Envisioner视频Diffusion,Task-Centric Batching策略提升动作可控性
  • Value Model:从预训练VLA初始化,progress regression + TD learning联合训练,输出密集且对失败敏感的advantage信号
  • Self-Improving Loop:在想象空间迭代rollout生成→advantage计算→策略更新,零真实交互成本

深入了解部分

作者想要表达什么

世界模型可以成为真实世界操作任务的有效"学习环境",通过想象空间中的on-policy RL,能高效bootstrapping策略在high-dynamics、dexterous任务上的表现,实现scalable的self-improving。

相比前人创新在哪里

  1. 首次将learned world model作为真实世界manipulation的interactive training environment,而非仅用于planning或数据增强
  2. Compositional设计:dynamics和value解耦,避免单一架构兼顾多目标的妥协,dynamics专注可控生成,value专注密集评估
  3. 直接为action chunk输出advantage,无需模拟到终端状态获取稀疏reward,降低对长时序生成准确性的依赖
  4. Task-Centric Batching策略:预训练时优先同场景下的动作多样性,显著提升fine-tuning效率和动作可控性

解决方法/算法的通俗解释

机器人先学会"做梦":给定当前画面和动作,预测接下来会看到什么(dynamics);再学会"打分":看这个预测画面离成功还有多远(value);然后用"预测画面+打分"算出这个动作好不好(advantage);最后用这些想象出来的经验更新策略。全程在脑子里练,不用真动手。

解决方法的具体做法

  1. Dynamics Model训练:Genie Envisioner初始化→Agibot World+Galaxea大规模预训练(Task-Centric Batching)→任务数据fine-tune,Flow Matching损失,50步Euler采样
  2. Value Model训练:π0.5 VLA backbone初始化→前10k步progress regression学习时序单调性→后40k步加入TD learning区分成功/失败,输出标量value
  3. Advantage计算:对action chunk预测的H帧未来,取value均值减当前value,离散化为10个bin作为策略训练条件
  4. Policy Warm-up:offline数据(expert+rollout+correction)上训练advantage-conditioned策略,expert数据强制标最高advantage
  5. Self-Improving Loop:采样offline状态→策略+最优advantage提示生成动作→dynamics生成未来→value评估得实际advantage→混合offline数据训练策略→EMA更新rollout策略,迭代10k步

基于前人的哪些方法

  • Genie Envisioner视频Diffusion架构
  • π0.5预训练VLA backbone
  • Progress estimate(VLM as in-context value learner)
  • TD learning经典RL方法
  • Advantage-conditioned policy optimization(RECAP)
  • Flow matching策略训练(π系列)

实验设置、数据、评估方式、结论

  • 硬件:dual 7-DoF AgileX robot,30Hz控制,3视角观测(top+双wrist)
  • 任务:Dynamic Brick Sorting(移动传送带分拣)、Backpack Packing(柔性物体操作)、Box Closing(双手精密协调)
  • 数据:每任务2-3k expert演示 + 500-600 policy rollout,Box Closing额外540 DAgger修正
  • 评估:20次自主执行,Success Rate + 分阶段Score(满分10)
  • 结论:RISE成功率85%/85%/95%,相比RECAP等baseline绝对提升+35%/+45%/+35%;ablation验证Task-Centric Batching、progress+TD联合训练、online state+action整合的必要性

提到的同类工作

  • World Model方向:Dreamer系列、Genie、Cosmos、Ctrl-world、AdaWorld
  • VLA+RL方向:RECAP(π*0.6)、DSRL、VLA-RL、SimpleVLA-RL、GR-RL
  • 数据/仿真方向:LIBERO、RoboCasa、BridgeData、Agibot World、Galaxea

和本文相关性最高的3个文献

  1. RECAP (π*0.6): advantage-conditioned offline RL for VLA post-training,本文warm-up阶段直接借鉴
  2. Genie Envisioner: 视频Diffusion world model,本文dynamics model的初始化基础
  3. π0.5: 开源VLA backbone,本文policy和value model的共同初始化来源

我的

  1. 将world model作为simulator,支持on policy强化学习训练。
  2. 所谓Compositional world model 就是分2个,一个是视频生成模型作为simulator,一个是Value model用来打分。
  3. 所谓Task-Centric Batching 就是训视频生成的时候拿同一个场景下的训,别加其他场景的,过拟合在这个任务之下,然后对这个任务做RL。
相关推荐
猿小猴子13 小时前
主流 AI IDE 之一的「DeepSeek-Reasonix 」介绍
人工智能·ai·deepseek·reasonix
装不满的克莱因瓶13 小时前
链式法则如何传递参数误差 —— 深入理解神经网络中的梯度传播
人工智能·python·深度学习·神经网络·数学·机器学习·ai
Anastasiozzzz13 小时前
从有限状态机到智能体图:传统 FSM 与 Agent Graph的演进
java·人工智能·python·ai
程序员cxuan19 小时前
为每个任务配一套 harness:Claude Code 里的动态工作流
人工智能
程序员cxuan19 小时前
Claude Fable 5 来了
人工智能·后端·程序员
云边云科技_云网融合19 小时前
云边云科技亮相 2026 WOD 制造业数智化博览会 云网融合赋能制造焕新
人工智能·科技·安全·制造
Σίσυφος190019 小时前
激光三角 光平面标定-多高度误差分析
人工智能·计算机视觉·平面
JS菌19 小时前
手写一个 AI Agent 全栈项目:从沙箱执行到子智能体的完整实现
前端·人工智能·后端
lqqjuly19 小时前
前沿算法深度解析(二)
人工智能·算法·机器学习
Bode_200219 小时前
基于大数据分析的全生命周期质量追溯质量评估体系落地方案
大数据·人工智能