WAM与AC-WM：具身智能时代的世界动作模型与动作条件世界模型

学习资料：https://zhuanlan.zhihu.com/p/2017556285294405036

在具身AI（Embodied AI）和机器人领域，世界模型（World Model） 正成为推动通用机器人发展的核心技术。它让智能体不再只是"看一眼就行动"，而是像人类一样，在脑海中"模拟"未来可能发生的情况，再决定下一步动作。近年来，这一领域涌现出两种重要范式：WAM（World Action Model，世界动作模型） 和AC-WM（Action-Conditioned World Model，动作条件世界模型）。两者都以视频或视觉预测为核心，但架构、输入输出和使用方式存在显著差异。本文将系统介绍它们的定义、原理、优缺点及应用前景。

1. 什么是世界模型？为什么需要WAM和AC-WM？

传统**Vision-Language-Action (VLA)**模型直接从图像+语言指令预测动作，擅长语义理解，但对物理动态（如物体碰撞、摩擦、变形）的泛化能力较弱。世界模型则通过学习"未来预测"来弥补这一短板：它模拟环境如何随动作变化，从而支持规划、策略学习和零样本泛化。

AC-WM（动作条件世界模型）：传统世界模型的代表形式。
WAM（世界动作模型）：新兴统一框架，将"世界预测"和"动作生成"深度融合，常基于大规模预训练视频扩散模型。

两者都源于视频生成技术，但解决的问题侧重点不同：AC-WM更像"模拟器"，WAM更像"自带策略的物理引擎"。

2. AC-WM：动作作为输入的"未来模拟器"

AC-WM 的核心是**动作条件化（Action-Conditioned）**预测。其输入-输出结构通常为：

输入：当前机器人观察（图像/视频帧） + 未来动作序列（例如接下来几步的末端执行器位姿、关节角或控制命令）。
输出：对应的未来视觉序列（视频帧）、状态变化或接触图等。

典型工作流程：研究者或策略模块先提出一组候选动作，AC-WM则"滚出（rollout）"这些动作会导致的视觉后果，用于评估、规划或训练策略。这本质上是前向动态模型（Forward Dynamics），让智能体在想象空间中测试不同动作的风险和收益。

优势：

直观且理论清晰：动作是明确的条件，预测结果高度可控。
适合规划任务：可与采样-based规划（如Model Predictive Control）结合，生成多条轨迹并挑选最优。
在移动机器人、导航和社会导航中表现突出（如MWM等移动世界模型）。

局限：

需要高质量的动作提案（action proposal）。如果提案生成器弱，模拟效果再好也无用。
测试时必须先想好动作再模拟，无法直接输出动作序列。
对长时序预测易积累误差，尤其在接触密集或非结构化环境中。

代表性工作包括各种Action-Conditioned Video Prediction模型，以及近期MWM（Mobile World Models）等，它们通过结构预训练+动作条件一致性（ACC）后训练，提升了滚出一致性。

3. WAM：联合建模的"零样本策略"

WAM（World Action Model） 则将世界建模与动作建模统一在一个框架中。它不再把动作单纯当作"输入"，而是让模型同时学习"未来视觉如何演化"和"机器人应该采取什么动作"。典型架构基于预训练视频扩散模型（如DiT或autoregressive扩散），通过联合去噪或共享注意力机制，同时预测视频帧和动作token。

核心特点（以DreamZero和Fast-WAM为例）：

输入：当前观察 + 语言目标（或无条件/文本提示）。
输出：未来视频序列和动作序列（或直接用于闭环控制的动作）。
训练方式：利用异构机器人数据（甚至人类/其他机器人视频）联合优化视频预测和动作预测目标。视频作为"稠密监督信号"，帮助模型习得物理 priors；动作则作为策略输出。

许多WAM采用imagine-then-execute范式：先在脑海中"想象"未来视频（条件于潜在动作），再从中解码或精炼动作。但最新研究（如Fast-WAM）发现，测试时显式生成未来视频未必必要------训练阶段的视频共同训练已足以注入强物理表示，推理时可直接跳过想象，极大降低延迟（从秒级降至190ms，实时7Hz+）。

优势：

零样本与泛化能力强：DreamZero等模型在真实机器人实验中，对新任务/新环境的泛化性能比SOTA VLA提升2倍以上；支持跨具身转移（cross-embodiment），只需10-30分钟异构数据即可适配新机器人。
数据效率高：充分利用海量互联网/视频数据预训练，减少对昂贵机器人示范数据的依赖。
闭环控制友好：可直接作为策略使用，无需额外规划器；支持文本提示生成多样动作。
物理直觉更丰富：联合训练让模型同时掌握"世界如何变化"和"如何行动"。

局限：

早期版本测试时延迟较高（迭代去噪）。
视频预测误差可能传播到动作解码（不过Fast-WAM等已缓解）。
架构更复杂，需要大规模预训练 backbone。

代表性模型：DreamZero（基于14B视频扩散，实现7Hz实时控制）、Fast-WAM（无需测试时想象）、Motus、GigaWorld-Policy等。

4. WAM vs AC-WM：如何选择？

维度	AC-WM（动作条件世界模型）	WAM（世界动作模型）
输入	当前观察 + 未来动作序列	当前观察 + 语言/目标（动作作为输出）
输出	未来视频/状态（模拟后果）	未来视频 + 动作序列（或直接动作）
角色	"模拟器"------用于规划和评估	"策略+模拟器"------直接生成动作并理解动态
优势场景	需要精确动作提案的规划任务（如导航）	零样本、跨具身、长时序泛化（如通用操作）
延迟	较低（无需生成视频即可评估动作）	传统较高，但Fast-WAM等已实时
数据需求	依赖高质量动作标签	可利用视频-only数据，效率更高
泛化	物理动态好，但依赖动作生成器	整体更强，尤其新环境/新物体