【论文阅读】RISE: Self-Improving Robot Policy with Compositional World Model

快速了解部分

题目: RISE: Self-Improving Robot Policy with Compositional World Model
时间:2026.02
机构: The Chinese University of Hong Kong, Kinetix AI, Tsinghua University, Horizon Robotics 等
3个英文关键词: Compositional World Model, Reinforcement Learning, Self-improving Robot

让机器人在"想象空间"里通过世界模型做梦练习，用预测未来+评估好坏的组合方式自我提升策略，避免真实世界中昂贵的试错成本。

Compositional World Model：解耦dynamics prediction（预测未来观测）和value estimation（评估想象状态），各自用最适合的架构优化
Dynamics Model：基于Genie Envisioner视频Diffusion，Task-Centric Batching策略提升动作可控性
Value Model：从预训练VLA初始化，progress regression + TD learning联合训练，输出密集且对失败敏感的advantage信号
Self-Improving Loop：在想象空间迭代rollout生成→advantage计算→策略更新，零真实交互成本

世界模型可以成为真实世界操作任务的有效"学习环境"，通过想象空间中的on-policy RL，能高效bootstrapping策略在high-dynamics、dexterous任务上的表现，实现scalable的self-improving。

首次将learned world model作为真实世界manipulation的interactive training environment，而非仅用于planning或数据增强
Compositional设计：dynamics和value解耦，避免单一架构兼顾多目标的妥协，dynamics专注可控生成，value专注密集评估
直接为action chunk输出advantage，无需模拟到终端状态获取稀疏reward，降低对长时序生成准确性的依赖
Task-Centric Batching策略：预训练时优先同场景下的动作多样性，显著提升fine-tuning效率和动作可控性

机器人先学会"做梦"：给定当前画面和动作，预测接下来会看到什么（dynamics）；再学会"打分"：看这个预测画面离成功还有多远（value）；然后用"预测画面+打分"算出这个动作好不好（advantage）；最后用这些想象出来的经验更新策略。全程在脑子里练，不用真动手。

Dynamics Model训练：Genie Envisioner初始化→Agibot World+Galaxea大规模预训练（Task-Centric Batching）→任务数据fine-tune，Flow Matching损失，50步Euler采样
Value Model训练：π0.5 VLA backbone初始化→前10k步progress regression学习时序单调性→后40k步加入TD learning区分成功/失败，输出标量value
Advantage计算：对action chunk预测的H帧未来，取value均值减当前value，离散化为10个bin作为策略训练条件
Policy Warm-up：offline数据（expert+rollout+correction）上训练advantage-conditioned策略，expert数据强制标最高advantage
Self-Improving Loop：采样offline状态→策略+最优advantage提示生成动作→dynamics生成未来→value评估得实际advantage→混合offline数据训练策略→EMA更新rollout策略，迭代10k步

硬件：dual 7-DoF AgileX robot，30Hz控制，3视角观测（top+双wrist）
任务：Dynamic Brick Sorting（移动传送带分拣）、Backpack Packing（柔性物体操作）、Box Closing（双手精密协调）
数据：每任务2-3k expert演示 + 500-600 policy rollout，Box Closing额外540 DAgger修正
评估：20次自主执行，Success Rate + 分阶段Score（满分10）
结论：RISE成功率85%/85%/95%，相比RECAP等baseline绝对提升+35%/+45%/+35%；ablation验证Task-Centric Batching、progress+TD联合训练、online state+action整合的必要性

RECAP (π*0.6): advantage-conditioned offline RL for VLA post-training，本文warm-up阶段直接借鉴
Genie Envisioner: 视频Diffusion world model，本文dynamics model的初始化基础
π0.5: 开源VLA backbone，本文policy和value model的共同初始化来源