世界动作模型（WAM）的泛化能力是否优于视觉语言动作模型（VLA）？

这篇文章是基于华为技术有限公司所做的研究基础上撰写的，华为技术有限公司在多种环境扰动与语言扰动条件下，对世界动作模型（WAM）和视觉 - 语言 - 动作策略（VLA）展开了系统性对比研究。

结果表明：得益于视频预训练带来的时空先验知识，WAM 对视觉扰动通常具备更强的鲁棒性，但其推理速度显著慢于 VLA。

现代机器人策略设计基础

在非结构化环境中执行机器人动作规划，要求策略同时具备鲁棒性与自适应能力。该领域早期主要依赖运动规划算法与人工工程设计，而大规模基础模型的发展，使研究范式转向数据驱动型策略。目前主流的两类代表性架构分别为：视觉 - 语言 - 动作（VLA）模型 与世界动作模型（WAMs）。

视觉 - 语言 - 动作模型（如 OpenVLA、π0.5）以视觉 - 语言模型（VLM）为基础构建。这类系统通常接收连续视觉观测与自然语言指令，输出机器人控制动作。尽管其在特定任务上表现优异，但在面对未见过的场景或存在显著视觉扰动的环境时，泛化能力仍有待验证。VLA 往往依靠预训练语言与视觉主干网络中的隐式知识来理解物理世界。

与之相对，世界动作模型（WAM）显式引入了世界建模模块。这类模型基于当前观测与潜在动作，对环境未来状态进行预测。通过采用大规模视频生成模型作为主干网络，WAM 试图从互联网级视频数据中习得对物理动力学与时间一致性的基础认知。本研究旨在探讨一个核心问题：相较于 VLA 的隐式建模方式，WAM 中显式的动力学预测与时空先验，是否能带来更优的鲁棒性与泛化性能。

架构对比：视觉 - 语言 - 动作模型（VLA）与世界动作模型（WAM）

要理解二者性能差异，必须深入分析这两类模型的底层架构与预测机制。

视觉 - 语言 - 动作（VLA）模型

VLA 模型通常采用由视觉编码器 （如 SigLIP、ViT）和语言模型 （如 Llama、Vicuna）组成的主干架构。视觉观测会被转化为令牌，并与指令嵌入拼接，再由语言模型处理以生成动作令牌。其主要学习目标通常为行为克隆损失，即模型学习将观测历史 ht 映射为动作 at，可表示为概率分布：pθ(at∣ht)在该框架下，模型对世界动力学的理解均为隐式学习。像 π0.5 这类模型虽尝试通过多样化机器人数据集与多任务目标训练来提升效果，但在标准推理流程中并不会显式预测未来视觉状态。

世界动作模型（WAM）

WAM 采用截然不同的思路，以视频生成模型（如 Stable Video Diffusion、Cosmos）为核心组件。这类主干网络在海量视频数据集上预训练，能够捕捉复杂的物理交互与时序关系。WAM 通常采用以下两种预测方案之一：

联合预测方案

：模型同时预测下一状态 ht+1 与当前动作 atpϕ(ht+1,at∣ht)
条件预测方案

：先预测未来状态，再基于该状态生成动作pϕ(ht+1∣ht)⋅gψ(at∣ht,ht+1)通过显式建模从 ht 到 ht+1 的状态转移，研究推测 WAM 能更好地捕捉任务底层物理规律，使其在面对视觉噪声、光照变化等可能干扰标准 VLA 的因素时，具备更强的适应能力。

基于 LIBERO-Plus 与 RoboTwin 2.0-Plus 的鲁棒性基准测试

为严谨评估两类模型，本研究采用两套引入丰富扰动类型的操作任务基准。

LIBERO-Plus 是 LIBERO 基准的扩展版本，聚焦于 Franka Panda 单臂机器人操作任务。它加入了多类视觉与语言层面的挑战，用以测试模型对训练中未见过的变化的适应能力。

RoboTwin 2.0-Plus 为本研究专门构建，用于评估双臂协同操作能力。该基准采用双臂系统（Aloha-Agilex），并从七大核心维度系统性施加扰动：

相机：第三人称相机视角与位姿变化
机器人：机器人手臂初始关节配置变化
语言：任务描述方式差异（如 "按铃" 与 "按下服务铃"）
光照：光照强度、阴影方向与色温调整
背景：桌面纹理与场景背景变化
噪声：输入图像的光度畸变
布局：加入干扰物体或改变目标物体摆放位置

这套全面的扰动体系可帮助研究者分离出对模型成功率影响最显著的因素，并判断 WAM 与 VLA 对特定环境变化的敏感程度。

鲁棒性与泛化性分析

研究结果显示，在多项扰动类别中，WAM 整体鲁棒性优于多数现有 VLA 模型。在 RoboTwin 2.0-Plus 基准上，WAM 模型 LingBot-VA 整体成功率达 74.2% ，超过多款对比 VLA 模型；在 LIBERO-Plus 基准上，Cosmos-Policy 在各类扰动下仍保持 82.2% 的成功率。

视觉鲁棒性

本研究最突出的发现之一是：WAM 对噪声、光照等视觉扰动具备显著更强的鲁棒性。例如，LingBot-VA 在图像噪声干扰下仍维持 80.9% 的成功率，而多数 VLA 模型性能出现明显下滑。这种稳定性源于 WAM 主干网络基于视频的预训练 ------ 模型学习生成连贯视频帧，天然具备 "去噪" 能力，即便在视觉输入质量下降或光照不佳时，仍能提取有效物理信息。

空间与背景扰动下的挑战

尽管具备优势，WAM 并非在所有场景下均表现更优。研究发现，WAM 与 VLA 在面对相机视角大幅变化、机器人初始状态改变时均表现不佳。此外，背景扰动（如将普通桌面替换为纹理复杂或异常的材质）会导致 WAM 在未来状态预测中出现 "幻觉"。若预测的未来状态 ht+1 存在物理矛盾或视觉畸变，后续生成的动作 at 也极易失效。

时空先验的作用

世界动作模型（WAMs）的优势在于其具备的时空先验。这些先验是模型在视频预训练阶段习得的、关于物理世界的 "常识" 知识 ------ 包括物体如何运动、光线如何与物体表面交互，以及时序过程如何展开。

视觉 - 语言 - 动作模型（VLAs）也能获取类似知识，但通常需要更海量、更多样的机器人数据才能实现。例如，π0.5 在 LIBERO-Plus 基准测试中表现强劲且稳定，整体成功率高达 85.7%，位居榜首。这一成果与其在大规模机器人数据集上的训练密切相关，使其能够隐式学习所需的物理动力学规律。

但华为技术有限公司的研究表明：WAMs 只需极少的任务专属微调，就能达到很高的鲁棒性水平，因为它们直接复用了视频生成主干网络中已有的先验知识。

推理效率与计算开销

华为这项研究揭示了一个关键的权衡关系：鲁棒性与推理速度之间存在矛盾。世界动作模型（WAMs）的推理速度显著慢于视觉 - 语言 - 动作模型（VLAs）。

WAMs 的推理延迟主要来源于用于状态与动作预测的扩散过程 。生成未来帧需要执行多次去噪步骤，每一步都需要通过大型神经网络进行前向传播。例如，VLA 模型 π0.5 完成一次推理仅需约 63 毫秒；与之相比，LingBot-VA 等 WAM 模型单次推理往往需要数秒，具体耗时取决于去噪迭代次数与主干网络规模。

尽管部分 WAM 模型（如 GE-Act）已通过将状态去噪步骤简化为一步来优化速度，但它们仍慢于大多数 VLA 模型。这种延迟对实时机器人应用构成了严峻挑战 ------ 为实现流畅、安全的运行，通常需要 10--50 Hz 的高频控制。目前已有研究在探索加速 WAM 推理的方法，包括 KV 缓存、异步预测以及更高效的扩散采样器，但二者之间的差距依然十分显著。

研究发现的意义

这项对比研究为世界动作模型与视觉 - 语言 - 动作模型的优劣提供了实证依据。研究表明，通过基于视频的预训练显式建模世界动力学，是实现对视觉扰动强鲁棒性的有效机制。

研究结果提示：在视觉清晰度无法保证的任务场景中（如户外机器人作业或光照多变的环境），WAMs 是极具潜力的技术路线。反之，在需要极高频率控制与低延迟的应用中，当前的 VLA 架构可能仍更实用 ------ 前提是使用足够丰富多样的数据进行训练，以弥补其缺乏显式世界模型的不足。

总体而言，该研究指向了一种融合两种范式优势的未来方向：结合 VLA 快速推理能力与 WAM 强时空先验的混合模型，有望催生新一代既高效又能泛化适应复杂现实世界的机器人策略。RoboTwin 2.0-Plus 等基准的推出，将持续为衡量这一方向的研究进展提供重要支撑，尤其在研究者向更复杂的双臂操作与多机器人系统迈进的过程中。