【学习笔记】Unified World Models:基于视频-动作耦合扩散的机器人预训练新范式

摘要

模仿学习在构建通用机器人方面展现出巨大潜力,但其扩展性严重依赖于高质量专家示范数据 。与此同时,互联网上存在海量的、蕴含丰富动态信息的无动作标注视频数据,却难以直接用于策略学习。

本文提出 Unified World Models (UWM) ,一个创新的扩散学习框架。UWM 将动作扩散视频扩散 耦合在统一的 Transformer 架构中,通过为每种模态设置独立的扩散时间步 ,使得一个模型能灵活地扮演策略网络前向/逆动力学模型 以及视频生成器。实验证明,UWM 能有效利用大规模机器人和无动作视频数据进行预训练,显著提升策略的泛化能力和鲁棒性。

关键词:机器人学习;扩散模型;世界模型;模仿学习;多模态预训练


1. 研究背景与动机

1.1 模仿学习的困境

行为克隆(Behavior Cloning, BC)通过监督学习拟合专家动作分布 p(a∣o)p(a|o)p(a∣o),在机器人操作中取得了显著成功。然而,其局限性同样明显:

问题 说明
数据依赖 依赖昂贵的遥操作数据,采集成本高
分布外脆弱性 训练分布外的场景下表现急剧下降
信息利用不足 未充分利用轨迹中的时间动态信息

1.2 世界模型的潜力

世界模型(World Model)通过学习环境动态 p(o′∣o,a)p(o'|o,a)p(o′∣o,a),能够从更广泛的数据中学习,包括:

  • 非专家的"玩耍"数据
  • 无动作标注的视频数据

核心问题:如何将世界模型学到的动态信息用于提升策略的鲁棒性?

1.3 本文工作

本文提出 Unified World Models (UWM) ,一个统一的扩散框架,同时建模联合分布 p(o,a,o′)p(o,a,o')p(o,a,o′),通过独立控制模态的扩散时间步,实现:

  • 策略学习 p(a∣o)p(a|o)p(a∣o)
  • 前向动力学 p(o′∣o,a)p(o'|o,a)p(o′∣o,a)
  • 逆动力学 p(a∣o,o′)p(a|o,o')p(a∣o,o′)
  • 视频预测 p(o′∣o)p(o'|o)p(o′∣o)

2. 方法:Unified World Models

2.1 核心思想

UWM 将动作扩散和图像扩散耦合,为两者设置独立的扩散时间步 tat_ata 和 to′t_{o'}to′。通过独立控制这两个时间步,实现灵活的推理模式:

模式 tat_ata 设置 to′t_{o'}to′ 设置 功能
策略 正常采样 to′=Tt_{o'}=Tto′=T(完全掩码) p(a∣o)p(a \mid o)p(a∣o)
视频预测 ta=Tt_a=Tta=T(完全掩码) 正常采样 p(o′∣o)p(o' \mid o)p(o′∣o)
前向动力学 ta=0t_a=0ta=0(条件) 正常采样 p(o′∣o,a)p(o' \mid o,a)p(o′∣o,a)
逆动力学 正常采样 to′=0t_{o'}=0to′=0(条件) p(a∣o,o′)p(a \mid o,o')p(a∣o,o′)

关键洞察 :扩散时间步与"掩码"存在天然联系。t=Tt=Tt=T 时变量完全被噪声掩盖,t=0t=0t=0 时变量保持干净作为条件。

2.2 扩散模型预备知识

去噪扩散概率模型(DDPM)定义前向过程:

q(xt∣xt−1)=N(xt∣1−βtxt−1,βtI)q(x_t|x_{t-1}) = N(x_t | \sqrt{1-\beta_t} x_{t-1}, \beta_t I)q(xt∣xt−1)=N(xt∣1−βt xt−1,βtI)

逆向过程学习噪声预测网络 sθ(xt,t)s_\theta(x_t, t)sθ(xt,t),训练目标为:

min⁡θEx0,t,ϵ∥sθ(xt,t)−ϵ∥2\min_\theta E_{x_0, t, \epsilon} \\\|s_\\theta(x_t, t) - \\epsilon\\\|\^2 θminEx0,t,ϵ∥sθ(xt,t)−ϵ∥2

2.3 联合建模与时间步解耦

UWM 定义联合噪声预测网络:

(ϵθa,ϵθo′)=sθ(o,ata,oto′′,ta,to′)(\epsilon_\theta^a, \epsilon_\theta^{o'}) = s_\theta(o, a_{t_a}, o'{t{o'}}, t_a, t_{o'})(ϵθa,ϵθo′)=sθ(o,ata,oto′′,ta,to′)

训练时 tat_ata 和 to′t_{o'}to′ 独立采样,模型暴露于所有噪声组合。

训练损失

L=Ewa∥ϵθa−ϵa∥2+wo′∥ϵθo′−ϵo′∥2L = E w_a \\\|\\epsilon_\\theta\^a - \\epsilon_a\\\|\^2 + w_{o'} \\\|\\epsilon_\\theta\^{o'} - \\epsilon_{o'}\\\|\^2 L=Ewa∥ϵθa−ϵa∥2+wo′∥ϵθo′−ϵo′∥2

其中带噪样本由下式生成:

ata=αˉtaa+1−αˉtaϵaa_{t_a} = \sqrt{\bar{\alpha}{t_a}} a + \sqrt{1-\bar{\alpha}{t_a}} \epsilon_aata=αˉta a+1−αˉta ϵa

oto′′=αˉto′o′+1−αˉto′ϵo′o'{t{o'}} = \sqrt{\bar{\alpha}{t{o'}}} o' + \sqrt{1-\bar{\alpha}{t{o'}}} \epsilon_{o'}oto′′=αˉto′ o′+1−αˉto′ ϵo′

2.4 四种推理模式

以策略采样为例(to′=Tt_{o'}=Tto′=T):

at−1=1αt(at−βt1−αˉtsθ(o,at,oT′,t,T))+σtδta_{t-1} = \frac{1}{\sqrt{\alpha_t}}(a_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}t}} s\theta(o, a_t, o'_T, t, T)) + \sigma_t \delta_tat−1=αt 1(at−1−αˉt βtsθ(o,at,oT′,t,T))+σtδt

其他模式同理,通过设置 tat_ata 或 to′t_{o'}to′ 为 000 或 TTT 实现条件/边缘采样。

2.5 模型架构

组件 说明
观测编码 ResNet-18 编码多视角图像
潜在扩散 SDXL VAE 压缩图像到 28×28×428 \times 28 \times 428×28×4 潜在空间
动作编码 MLP 编码动作块为 token
时间步编码 正弦编码 tat_ata 和 to′t_{o'}to′
主干网络 Diffusion Transformer,AdaLN 条件注入
Register Tokens 可学习 token,促进模态间信息交换

3. 实验设计

3.1 数据集

数据 来源 数量 用途
机器人数据 DROID 2000 轨迹 预训练
无动作视频 DROID(去动作) 2000 轨迹 协同训练
真实任务 遥操作采集 50-150/任务 微调
仿真基准 LIBERO-100 90+10 任务 标准化评估

3.2 真实世界任务

任务 难度 成功标准
Stack-Bowls 精确定位 粉碗叠放于蓝碗上
Block-Cabinet 多阶段 开门→抓块→放入柜
Paper-Towel 精确操作 纸巾直立放置不倒
Hang-Towel 可变形物体 毛巾挂于钩上
Rice-Cooker 长时程 倒米→放内胆→合盖

3.3 基线方法

方法 特点 与 UWM 差异
Diffusion Policy (DP) 动作扩散 无图像预测
PAD 联合扩散 共享时间步
GR-1 回归式 非扩散,确定性预测

4. 实验结果

4.1 真实机器人结果

Stack-Bowls

方法 ID OOD
UWM 0.86 0.76
DP 0.48 0.36
PAD 0.08 0.08
GR-1 0.66 0.48

Block-Cabinet

方法 ID OOD
UWM 0.76 0.60
DP 0.60 0.26
PAD 0.00 0.00
GR-1 0.66 0.44

Paper-Towel

方法 ID OOD
UWM 0.78 0.78
DP 0.52 0.48
PAD 0.42 0.34
GR-1 0.60 0.60

Hang-Towel

方法 ID OOD
UWM 0.82 0.64
DP 0.64 0.28
PAD 0.52 0.30
GR-1 0.66 0.48

Rice-Cooker (ID only)

方法 成功率
UWM 0.60
DP 0.35
PAD 0.00
GR-1 0.40

UWM 在所有任务上显著优于基线,OOD 场景下优势更明显。

4.2 视频协同训练效果

任务 仅预训练 +视频协同 提升
Stack-Bowls 0.86 0.92 +6%
Block-Cabinet 0.76 0.84 +8%
Paper-Towel 0.78 0.86 +8%

UWM 能有效利用无动作视频提升性能。

4.3 仿真基准结果 (LIBERO)

方法 平均成功率
UWM 0.79
DP 0.71
GR-1 0.58
PAD 0.57

5. 分析与消融实验

5.1 前向动力学预测

实验:给定当前观测和动作,预测未来图像。UWM 能准确预测机器人和物体的未来位姿。

5.2 逆动力学轨迹跟踪

方法 Book-Caddy Soup-Cheese
逆动力学 0.65 0.55
标准策略 0.47 0.26

逆动力学生成的动作能更精确地跟随参考轨迹。

5.3 多类别 OOD 泛化

在光照(L1,L2)、背景(B1,B2)、杂乱(C1,C2)共 30 次测试中:

方法 成功次数
UWM (+视频) 21
UWM (仅预训练) 15
DP 6

5.4 消融实验

消融项 最佳 较差 结论
Register Tokens 0.88 (8个) 0.81 (无) 促进跨模态通信
预测目标 0.86 (未来) 0.70 (当前) 动态预测优于重建
条件注入 AdaLN Cross-Attn AdaLN 更适合动作
视频来源 0.92 (域内) 0.88 (互联网) 域内更佳

5.5 预训练 vs 从零训练

方法 从零 预训练 提升
UWM ~0.45 ~0.86 大幅
DP ~0.40 ~0.52 有限

6. 核心创新总结

创新点 说明
解耦扩散时间步 独立控制 tat_ata 和 to′t_{o'}to′,实现 4 种推理模式
统一模型框架 单模型支持策略/动力学/逆动力学/视频预测
视频协同训练 固定 ta=Tt_a=Tta=T 即可利用无动作视频
Register Tokens 跨模态通信机制,提升特征共享
强 OOD 泛化 光照/背景/杂乱等场景下保持鲁棒

7. 局限性与未来方向

局限性 未来方向
未使用人类视频 跨具身视频学习
预测存在伪影 更先进的视频生成模型
单步预测 多步密集预测
计算开销大 模型蒸馏、DDIM 加速

8. 结论

本文提出的 Unified World Models (UWM) 成功地将策略学习与世界模型统一在一个扩散框架中。通过解耦动作与视频的扩散时间步,UWM 不仅能灵活扮演多种角色,还能有效利用无动作视频数据进行协同训练。

在多项真实和仿真任务中,UWM 显著超越 Diffusion Policy、PAD、GR-1 等基线方法,尤其在分布外场景下优势明显,为构建可扩展的机器人基础模型提供了新思路。


9. 资源

相关推荐
一锅炖出任易仙2 小时前
创梦汤锅学习日记day32
学习·ai·游戏引擎
影寂ldy2 小时前
C# 事件完整学习笔记(发布订阅 + 自定义事件 + 内置 EventHandler)
笔记·学习·c#
VidDown2 小时前
VidDown 工具站:视频分辨率技术
javascript·网络·编辑器·音视频·视频编解码·视频
Cxiaomu2 小时前
React接入WebRTC实时视频实践
react.js·音视频·webrtc
fox_lht3 小时前
15.4.循环和迭代器的性能比较
开发语言·后端·学习·rust
海绵宝宝的月光宝盒3 小时前
6-机械设计基础物理知识
经验分享·笔记·其他·职场和发展·课程设计·学习方法
淮南颂恩少儿编程C++3 小时前
在淮南:编程信息学培训与 C++ 信奥赛:从 CSP 到 NOI 的进阶之路
人工智能·学习·青少年编程
闪闪发亮的小星星3 小时前
卫星通信、主要业务类型、组成
笔记
小鹿研究点东西3 小时前
AI直播复盘实操:如何自动录制并拆解直播话术
人工智能·自动化·音视频