学习资料:https://zhuanlan.zhihu.com/p/2017556285294405036
在具身AI(Embodied AI)和机器人领域,世界模型(World Model) 正成为推动通用机器人发展的核心技术。它让智能体不再只是"看一眼就行动",而是像人类一样,在脑海中"模拟"未来可能发生的情况,再决定下一步动作。近年来,这一领域涌现出两种重要范式:WAM(World Action Model,世界动作模型) 和AC-WM(Action-Conditioned World Model,动作条件世界模型)。两者都以视频或视觉预测为核心,但架构、输入输出和使用方式存在显著差异。本文将系统介绍它们的定义、原理、优缺点及应用前景。
1. 什么是世界模型?为什么需要WAM和AC-WM?
传统**Vision-Language-Action (VLA)**模型直接从图像+语言指令预测动作,擅长语义理解,但对物理动态(如物体碰撞、摩擦、变形)的泛化能力较弱。世界模型则通过学习"未来预测"来弥补这一短板:它模拟环境如何随动作变化,从而支持规划、策略学习和零样本泛化。
- AC-WM(动作条件世界模型):传统世界模型的代表形式。
- WAM(世界动作模型):新兴统一框架,将"世界预测"和"动作生成"深度融合,常基于大规模预训练视频扩散模型。
两者都源于视频生成技术,但解决的问题侧重点不同:AC-WM更像"模拟器",WAM更像"自带策略的物理引擎"。
2. AC-WM:动作作为输入的"未来模拟器"
AC-WM 的核心是**动作条件化(Action-Conditioned)**预测。其输入-输出结构通常为:
- 输入 :当前机器人观察(图像/视频帧) + 未来动作序列(例如接下来几步的末端执行器位姿、关节角或控制命令)。
- 输出:对应的未来视觉序列(视频帧)、状态变化或接触图等。
典型工作流程:研究者或策略模块先提出一组候选动作,AC-WM则"滚出(rollout)"这些动作会导致的视觉后果,用于评估、规划或训练策略。这本质上是前向动态模型(Forward Dynamics),让智能体在想象空间中测试不同动作的风险和收益。
优势:
- 直观且理论清晰:动作是明确的条件,预测结果高度可控。
- 适合规划任务:可与采样-based规划(如Model Predictive Control)结合,生成多条轨迹并挑选最优。
- 在移动机器人、导航和社会导航中表现突出(如MWM等移动世界模型)。
局限:
- 需要高质量的动作提案(action proposal)。如果提案生成器弱,模拟效果再好也无用。
- 测试时必须先想好动作再模拟,无法直接输出动作序列。
- 对长时序预测易积累误差,尤其在接触密集或非结构化环境中。
代表性工作包括各种Action-Conditioned Video Prediction模型,以及近期MWM(Mobile World Models)等,它们通过结构预训练+动作条件一致性(ACC)后训练,提升了滚出一致性。
3. WAM:联合建模的"零样本策略"
WAM(World Action Model) 则将世界建模与动作建模统一在一个框架中。它不再把动作单纯当作"输入",而是让模型同时学习"未来视觉如何演化"和"机器人应该采取什么动作"。典型架构基于预训练视频扩散模型(如DiT或autoregressive扩散),通过联合去噪或共享注意力机制,同时预测视频帧和动作token。
核心特点(以DreamZero和Fast-WAM为例):
- 输入:当前观察 + 语言目标(或无条件/文本提示)。
- 输出 :未来视频序列 和 动作序列(或直接用于闭环控制的动作)。
- 训练方式:利用异构机器人数据(甚至人类/其他机器人视频)联合优化视频预测和动作预测目标。视频作为"稠密监督信号",帮助模型习得物理 priors;动作则作为策略输出。
许多WAM采用imagine-then-execute范式:先在脑海中"想象"未来视频(条件于潜在动作),再从中解码或精炼动作。但最新研究(如Fast-WAM)发现,测试时显式生成未来视频未必必要------训练阶段的视频共同训练已足以注入强物理表示,推理时可直接跳过想象,极大降低延迟(从秒级降至190ms,实时7Hz+)。
优势:
- 零样本与泛化能力强:DreamZero等模型在真实机器人实验中,对新任务/新环境的泛化性能比SOTA VLA提升2倍以上;支持跨具身转移(cross-embodiment),只需10-30分钟异构数据即可适配新机器人。
- 数据效率高:充分利用海量互联网/视频数据预训练,减少对昂贵机器人示范数据的依赖。
- 闭环控制友好:可直接作为策略使用,无需额外规划器;支持文本提示生成多样动作。
- 物理直觉更丰富:联合训练让模型同时掌握"世界如何变化"和"如何行动"。
局限:
- 早期版本测试时延迟较高(迭代去噪)。
- 视频预测误差可能传播到动作解码(不过Fast-WAM等已缓解)。
- 架构更复杂,需要大规模预训练 backbone。
代表性模型:DreamZero(基于14B视频扩散,实现7Hz实时控制)、Fast-WAM(无需测试时想象)、Motus、GigaWorld-Policy等。
4. WAM vs AC-WM:如何选择?
| 维度 | AC-WM(动作条件世界模型) | WAM(世界动作模型) |
|---|---|---|
| 输入 | 当前观察 + 未来动作序列 | 当前观察 + 语言/目标(动作作为输出) |
| 输出 | 未来视频/状态(模拟后果) | 未来视频 + 动作序列(或直接动作) |
| 角色 | "模拟器"------用于规划和评估 | "策略+模拟器"------直接生成动作并理解动态 |
| 优势场景 | 需要精确动作提案的规划任务(如导航) | 零样本、跨具身、长时序泛化(如通用操作) |
| 延迟 | 较低(无需生成视频即可评估动作) | 传统较高,但Fast-WAM等已实时 |
| 数据需求 | 依赖高质量动作标签 | 可利用视频-only数据,效率更高 |
| 泛化 | 物理动态好,但依赖动作生成器 | 整体更强,尤其新环境/新物体 |