论文笔记（一百一十七）WorldVLA Towards Autoregressive Action World Model Model

WorldVLA Towards Autoregressive Action World Model Model

文章概括
ABSTRACT
[1 Introduction](#1 Introduction)
[2 Related Works](#2 Related Works)
[3 Methods](#3 Methods)
- [3.1 Problem Formulation](#3.1 Problem Formulation)
- [3.2 Architecture](#3.2 Architecture)
- [3.3 Training Strategy](#3.3 Training Strategy)
[4 Experiments](#4 Experiments)
- [4.1 Evaluation Benchmark](#4.1 Evaluation Benchmark)
- [4.2 Evaluation Results and Discussion](#4.2 Evaluation Results and Discussion)
[5 Conclusion and Future Work](#5 Conclusion and Future Work)

文章概括

引用：

bash 复制代码

@article{cen2025worldvla,
  title={WorldVLA: Towards Autoregressive Action World Model},
  author={Cen, Jun and Yu, Chaohui and Yuan, Hangjie and Jiang, Yuming and Huang, Siteng and Guo, Jiayan and Li, Xin and Song, Yibing and Luo, Hao and Wang, Fan and others},
  journal={arXiv preprint arXiv:2506.21539},
  year={2025}
}

markup 复制代码

Cen, J., Yu, C., Yuan, H., Jiang, Y., Huang, S., Guo, J., Li, X., Song, Y., Luo, H., Wang, F. and Zhao, D., 2025. WorldVLA: Towards Autoregressive Action World Model. arXiv preprint arXiv:2506.21539.

主页：
原文：
代码、数据和视频： https://github.com/alibaba-damo-academy/WorldVLA

系列文章：

请在《《《文章》》》专栏中查找

宇宙声明！

引用解析部分属于自我理解补充，如有错误可以评论讨论然后改正！

ABSTRACT

我们提出了 WorldVLA：一种自回归的动作世界模型，用于统一动作与图像的理解与生成。 我们的 WorldVLA 将视觉-语言-动作（VLA）模型与世界模型整合到一个统一框架中。 世界模型利用对动作与图像的理解来预测未来图像，其目的在于学习环境的底层物理规律，从而提升动作生成能力。与此同时，动作模型基于图像观测生成后续动作，帮助视觉理解，并反过来促进世界模型的视觉生成。我们展示了 WorldVLA 优于单独的动作模型与世界模型，凸显了世界模型与动作模型之间的相互增益。此外，我们发现动作模型在以自回归方式生成动作序列时，其性能会下降。这一现象可归因于模型在动作预测上的泛化能力有限，从而导致早先动作的错误向后续动作传播并累积。为解决该问题，我们提出了一种注意力掩码策略：在生成当前动作时有选择地遮蔽先前动作；该策略在动作分块（action chunk）生成任务中带来了显著的性能提升。

1 Introduction

视觉-语言-动作（Vision-Language-Action，VLA）模型的发展已成为机器人动作模型研究中的一个重要研究方向（Brohan et al., 2023；Kim et al., 2024；Black et al., 2024）。这类模型通常通过在大规模预训练的多模态大语言模型（Multimodal Large Language Models，MLLMs）（Liu et al., 2023b；Li et al., 2024；Zhang et al., 2025；Bai et al., 2025）上引入动作头或额外的动作专家模块来实现动作生成。 MLLMs 在感知与决策方面提供了强大的能力，使得 VLA 模型能够在广泛的机器人任务中展现出更强的泛化能力（Black et al., 2024；Intelligence et al., 2025）。然而，这类模型仍然存在一个显著局限：动作通常仅被视为输出结果，而未作为输入融入模型进行更深层次的分析，因此缺乏对动作的全面理解。相比之下，世界模型能够基于当前观测和动作预测未来的视觉状态，从而同时理解视觉信息与行为动力学（Ha and Schmidhuber, 2018；Agarwal et al., 2025；Wu et al., 2025）。尽管具有上述优势，世界模型由于无法直接生成动作输出，在需要显式动作规划的应用场景中仍存在功能上的不足。

为克服视觉-语言-动作（VLA）模型与世界模型各自固有的限制，我们提出了 WorldVLA------一种用于统一动作与图像理解和生成的自回归动作世界模型。如图 1 所示，WorldVLA 使用三个独立的分词器（tokenizer）分别对图像、文本和动作进行编码。不同模态产生的 token 共享同一词表，从而使多模态的理解与生成能够在单一的大语言模型架构中实现统一。世界模型模块通过基于输入动作生成视觉表示，来捕捉环境的底层物理动力学特性。这种对动作的解释以及对环境物理规律的学习，对于动作模型实现有效决策至关重要。与此同时，嵌入在 WorldVLA 中的动作模型能够进一步提升对视觉数据的理解，从而提高世界模型进行图像生成时的准确性。这种双向增强机制构建了一个更加稳健且全面的模型，使其能够同时理解并生成动作与图像。

图 1：（a）动作模型基于图像理解生成动作；（b）世界模型基于图像与动作理解生成图像；（c）动作世界模型统一了图像与动作的理解与生成。

已有研究表明，动作分块（action chunking）与并行解码对动作模型的性能具有显著影响（Kim et al., 2025）。然而，我们发现，在自回归模型中顺序生成多个动作会导致性能下降。其主要原因在于，预训练的多模态语言模型主要接触的是图像和文本，而非动作数据，因此其动作泛化能力有限。在自回归模型中，后续动作依赖于先前动作，一旦早期预测出现错误，错误便会随时间传播并影响后续动作，成为一个关键问题。为缓解这一问题，我们提出了一种动作注意力掩码策略，在生成当前动作时有选择地对先前动作进行掩蔽。该方法能够有效抑制误差累积，并在动作分块生成任务中带来显著性能提升。

在 LIBERO 基准测试上的实验结果表明，WorldVLA 相比使用相同骨干网络的动作模型，其抓取成功率提升了 4%。此外，与基础世界模型相比，WorldVLA 在视频生成能力上表现更优，并在 LIBERO 数据集上将 Fréchet Video Distance（FVD）降低了 10%。这些结果凸显了世界模型与动作模型相互融合所带来的双重收益，验证了统一框架在图像与动作理解和生成方面的优势。在动作分块生成任务中，采用传统自回归方法会导致抓取成功率下降 10% 至 50%。然而，引入我们的注意力掩码策略后，这种性能下降得到了显著缓解，抓取成功率提升了 4% 至 23%。

综上所述，我们的主要贡献如下：

我们提出了 WorldVLA，一种统一动作与图像理解和生成的自回归动作世界模型。
我们针对自回归模型中的动作分块生成任务提出了一种动作注意力掩码策略，以解决多动作顺序生成过程中误差累积的问题。
实验结果表明，WorldVLA 优于单独的动作模型和世界模型，突出了两者之间的相互增强作用；同时，动作注意力掩码策略有效缓解了动作分块生成时的性能退化问题，并显著提升了抓取性能。

我们提出的 WorldVLA 与动作模型、视频预测模型以及世界模型密切相关。它们之间的差异总结于表 1 中。

Vision-Language-Action Model 视觉-语言-动作模型。 行为克隆（Behavior Cloning）（Pomerleau, 1988）是一种经典的机器人操作模仿学习方法，通过模仿专家的观测---动作对来学习策略。传统架构通常将视觉主干网络（如 ResNet（He et al., 2016）或 Vision Transformer（Dosovitskiy et al., 2020））与一个动作头相结合。动作头可以由多层感知机（MLPs）（Rumelhart et al., 1986）、基于查询的 Transformer 解码器（Zhao et al., 2023），或基于扩散模型的策略头（Chi et al., 2023）构成。近年来，研究者提出了视觉-语言-动作（VLA）模型，其以预训练的多模态大语言模型（MLLM）作为骨干网络（Brohan et al., 2022, 2023；Li et al., 2023；Huang et al., 2023；Belkhale and Sadigh, 2024；Wen et al., 2025；Zhen et al., 2024）。这些框架通常配备离散动作解码器（Kim et al., 2024；Pertsch et al., 2025）或连续的扩散策略头（Black et al., 2024；Wen et al., 2024）用于动作预测。 MLLM 中蕴含的互联网规模先验知识，使 VLA 模型能够有效泛化到未见过的场景和任务。我们提出的 WorldVLA 在此范式基础上进一步拓展，通过联合生成动作与预测未来视频帧，为理解与生成提供了一种更加全面的解决方案。

Video Generation 视频生成。 视频生成在机器人领域中扮演着双重角色。一方面，一些策略模型首先生成未来视频，再基于生成的视频来生成相应的动作（Du et al., 2023；Ajay et al., 2023；Bu et al., 2024）。如相关工作所示，大规模视频数据可用于未来视频生成模块的预训练（Wu et al., 2023；Cheang et al., 2024）。在这种情况下，视频生成作为一种视觉想象与规划机制，为后续策略生成提供了有价值的信息（Cen et al., 2024）。另一方面，视频生成模型也可以作为世界模型，用于模拟多样化的未来场景（Ha and Schmidhuber, 2018）。这类世界模型被广泛用于生成多样化的训练数据（Agarwal et al., 2025）、支持基于模型的强化学习算法（Wu et al., 2025），以及从一组生成的策略中筛选最优策略（Li et al., 2025；Bar et al., 2024）。在本文中，我们表明 WorldVLA 能够通过动作输入对视频生成进行精确控制，同时也证明了视频生成能够显著提升动作生成的质量。

Unified Understanding and Generation Model 统一理解与生成模型。 大多数多模态大语言模型（MLLMs）主要用于视觉理解任务，即模型根据图像与语言的联合输入生成文本响应（Liu et al., 2023b；Li et al., 2024；Zhang et al., 2025；Bai et al., 2025）。近年来，研究者逐渐关注在单一框架中统一视觉理解与视觉生成（Team, 2024；Zhou et al., 2024）。其中一类工作将图像离散化为类似文本的 token，使大语言模型（LLMs）能够无缝地进行视觉内容的理解与生成（Team, 2024；Wang et al., 2024）。另一类方法将扩散过程集成进 LLM 用于图像生成，同时依赖额外的视觉编码器（如 CLIP（Radford et al., 2021；Zhai et al., 2023））来完成图像理解（Chen et al., 2025；Tong et al., 2024）。在机器人领域，Unified Video Action Model（Li et al., 2025）提出了一种统一架构，通过不同的扩散头分别生成图像和动作。相比之下，我们的 WorldVLA 采用离散的自回归架构，探索了一种不同的方向，构建了一个能够同时处理感知与动作生成的统一模型。

3 Methods

3.1 Problem Formulation

在本文中，我们关注如何学习一个能够同时进行动作预测与世界状态预测 的统一模型这一挑战。具体而言，我们定义了两个核心组成部分：动作模型（或策略模型） π θ \pi_\theta πθ，以及世界模型 f ϕ f_\phi fϕ。动作模型 π θ \pi_\theta πθ 负责在历史图像观测序列 { o t − h , o t − h + 1 , ... , o t } \{o_{t-h}, o_{t-h+1}, \ldots, o_t\} {ot−h,ot−h+1,...,ot} 以及语言指令 l l l 的条件下生成当前动作 a t a_t at，其形式化表达为：

a t = π θ ( a t ∣ o t − h : t , l ) . (1) a_t = \pi_\theta(a_t \mid o_{t-h:t}, l). \tag{1} at=πθ(at∣ot−h:t,l).(1)

与此同时，世界模型 f ϕ f_\phi fϕ 根据历史观测序列 { o t − h , o t − h + 1 , ... , o t − 1 } \{o_{t-h}, o_{t-h+1}, \ldots, o_{t-1}\} {ot−h,ot−h+1,...,ot−1} 以及对应的历史动作序列 { a t − h , a t − h + 1 , ... , a t − 1 } \{a_{t-h}, a_{t-h+1}, \ldots, a_{t-1}\} {at−h,at−h+1,...,at−1} 来预测下一帧图像 o t o_t ot。

该关系形式化表示为：

o t = f ϕ ( o t ∣ o t − h : t − 1 , a t − h : t − 1 ) . (2) o_t = f_\phi(o_t \mid o_{t-h:t-1}, a_{t-h:t-1}). \tag{2} ot=fϕ(ot∣ot−h:t−1,at−h:t−1).(2)

我们的目标是构建一个统一的动作---世界模型 M ψ M_\psi Mψ，将上述两种功能整合到同一模型中。模型 M ψ M_\psi Mψ 应当既能够作为策略模型预测动作，又能够作为世界模型预测未来状态。形式化地，统一模型 M ψ M_\psi Mψ 定义为：

M ψ : { a t = M ψ policy ( a t ∣ o t − h : t , l ) , o t = M ψ world ( o t ∣ o t − h : t − 1 , a t − h : t − 1 ) , (3) M_\psi : \begin{cases} a_t = M^{\text{policy}}\psi(a_t \mid o{t-h:t}, l), \\ o_t = M^{\text{world}}\psi(o_t \mid o{t-h:t-1}, a_{t-h:t-1}), \end{cases} \tag{3} Mψ:{at=Mψpolicy(at∣ot−h:t,l),ot=Mψworld(ot∣ot−h:t−1,at−h:t−1),(3)

其中， M ψ policy M^{\text{policy}}\psi Mψpolicy 表示动作生成模块， M ψ world M^{\text{world}}\psi Mψworld 表示世界状态预测模块。通过学习这样一个统一模型，我们希望构建一个紧凑且高效的框架，利用共享表示同时支持决策制定与环境建模。

3.2 Architecture

0. 这篇东西到底想干嘛？一句话讲清

它要做的是： 把"看见的画面 + 文字任务 + 机器人动作"都变成 token，然后用一个自回归模型像写句子一样：

生成下一步动作（Action Model）

生成执行该动作后的下一帧画面（World Model）

所以它叫 autoregressive action world model（自回归动作世界模型）：

autoregressive：一步一步预测"下一个 token/下一个片段"

action：动作也是 token

world model：还能预测世界会变成啥样（下一帧图像）

图 2 WorldVLA 总览。WorldVLA 集成了两个相互区分但彼此互补的功能模块：动作模型与世界模型。动作模型负责在文本和视觉数据的条件下生成动作。世界模型则利用文本信息、当前图像以及当前动作来预测后续的环境状态（例如下一帧视觉画面）。

1. 图 2 的大结构：WorldVLA = 两个互补模块

图里中间是一条大横条 WorldVLA，上面挂了两块：

A) 左边：Action Model（动作模型）

输入：文字 + 当前图像

输出：动作 token → 再"反分词"变回真实机器人能执行的动作（比如 Δ x , Δ θ , Δ g r i p \Delta x,\Delta \theta,\Delta grip Δx,Δθ,Δgrip）。

你可以把它理解为：

"我看到桌面上这些东西 + 我想完成任务 → 我下一步手应该往哪动、转多少、夹爪开合怎样？"

B) 右边：World Model（世界模型）

输入：文字 + 当前图像 + 当前动作

输出：下一帧图像 token → 再"反分词"变回下一帧真实图像。

你可以把它理解为：

"如果我刚才那样动一下手，那么下一秒我会看到什么画面？"

这俩是互补的：

动作模型告诉你"怎么做"

世界模型告诉你"做了会发生什么"（用来想象/规划/训练）

2. 为什么要"Tokenizer/De-Tokenizer"？核心原因：统一成一种语言

Transformer 最擅长的事情就是：处理一串离散符号（token）并预测下一个 token。所以他们做了一个非常关键的统一操作：

把图像、文字、动作------全都离散化成 token，然后让同一个自回归框架去学"下一步"。

于是必须有两类工具：

(1) Tokenizer（分词器）：把东西变 token

Text Tokenizer：文字 → token

Image Tokenizer：图像 → token

Action Tokenizer：连续动作 → token

(2) De-Tokenizer（反分词器）：把 token 变回可用的东西

Action De-Tokenizer：动作 token → 真实连续控制量（ Δ x , Δ θ , Δ g r i p \Delta x,\Delta \theta,\Delta grip Δx,Δθ,Δgrip）

Image De-Tokenizer：图像 token → 像素图（下一帧）

你可以把 token 想成"编码后的积木"。模型只会玩积木；Tokenizer/De-Tokenizer 负责把现实世界 ↔ 积木世界互相转换。

自回归动作世界模型的整体架构如图 2 所示。我们基于 Chameleon（Team, 2024）对模型进行初始化，因为 Chameleon 是一个用于图像理解与图像生成的统一模型。模型中涉及三种分词器（tokenizer），分别是图像分词器 、文本分词器 和动作分词器。图像分词器采用 VQ-GAN 模型（Esser et al., 2021），并在特定图像区域（例如人脸和显著物体）上引入额外的感知损失（Gafni et al., 2022）。图像分词器的压缩比为 16，码本（codebook）大小为 8192。对于 256 × 256 的图像，图像分词器生成 256 个 token；对于 512 × 512 的图像，则生成 1024 个 token。动作分词器将连续机器人动作的每一个维度离散化为 256 个区间之一，区间宽度由训练数据的取值范围决定（Kim et al., 2024；Brohan et al., 2023）。每个动作由 7 个 token 表示，包括 3 个相对位置、3 个相对角度以及 1 个绝对夹爪状态。文本分词器采用训练好的 BPE 分词器（Sennrich et al., 2015），其词表大小为 65,536，其中包含 8192 个图像 token 和 256 个动作 token。所有文本、动作和图像均被离散化为 token，并以自回归的方式进行训练。

3. 图像分词器 Image Tokenizer：VQ-GAN + codebook 是怎么回事？

3.1 为什么图像不能直接当输入？

一张 256 × 256 256\times256 256×256 彩色图像是 256 ⋅ 256 ⋅ 3 = 196 , 608 256\cdot256\cdot3=196,608 256⋅256⋅3=196,608 个数，直接喂给自回归生成会非常慢、序列太长。所以他们用 VQ-GAN（Esser et al., 2021） 把图像压缩成少量离散 token。

3.2 VQ-GAN 的直觉解释（非常重要）

VQ-GAN 做的事像这样：

先用编码器把图像压缩成一张"更小的特征图"（空间分辨率降下来）

然后把特征图里每个位置的向量，用一个"码本（codebook）"里的编号来表示

codebook 就像一个"字典"：里面有很多个"常见视觉碎片/纹理/局部模式"的原型

每个位置只存一个"字典索引号"就行了 → 这就是 token

所以：

codebook size = 8192：说明字典里有 8192 个"视觉词"（token 类型）

compression ratio = 16：说明空间上压缩了 16 倍（直觉上可以理解为：原图很多像素被汇总成更少的格子来表示）

3.3 为什么 256 × 256 256\times256 256×256 变成 256 个 token，而 512 × 512 512\times512 512×512 变成 1024 个？

这其实是在说：token 数量随图像面积增长（分辨率翻倍，面积变 4 倍，所以 token 也变 4 倍）。

256 × 256 → 256 256\times256 \rightarrow 256 256×256→256 tokens（可以理解为压成 16 × 16 16\times16 16×16 的token网格）

512 × 512 → 1024 512\times512 \rightarrow 1024 512×512→1024 tokens（相当于 32 × 32 32\times32 32×32 的token网格）

这非常符合"把图像切成网格、每格一个 token"的思路。

3.4 "对人脸和显著物体加感知损失"是干嘛？

他们额外引入 perceptual loss（Gafni et al., 2022），而且是对"人脸、显著物体"等区域更关注。直觉上：

如果压缩---重建时只追求像素误差，模型可能把重要区域（比如脸、关键物体边界）弄糊。感知损失更像"看起来像不像"，能逼着重建在视觉上更真实，尤其关键区域更清晰。

这一步的目的：让"图像 token"真的携带足够高质量的视觉信息，否则后面的世界模型预测下一帧会很虚。

4. 动作分词器 Action Tokenizer：把连续控制量离散成 token

机器人动作原本是连续的，比如：

末端执行器在 x , y , z x,y,z x,y,z 的相对位移： Δ x \Delta x Δx（3维）

姿态变化： Δ θ \Delta \theta Δθ（3维）

夹爪开合：grip（1维，往往是开/合或连续开合程度）

4.1 为什么要把连续动作离散化？

因为他们想要"图像/文字/动作都用同一种 token 序列建模"。Transformer 自回归最自然的输出是离散符号。所以他们对每个动作维度做：

256 bins（256 个区间）：把连续范围切成 256 档

"区间宽度由训练数据范围决定"：意思是先看训练集中动作大概落在哪个最小/最大范围，然后在这个范围内均匀或按规则切 256 档（具体切法暂时省略，但这段话强调的是"由数据范围决定"）

4.2 "每个动作 7 个 token"具体是什么意思？

因为动作有 7 个维度，所以用 7 个离散 token 表示：

3 个 token：相对位置（ Δ x , Δ y , Δ z \Delta x,\Delta y,\Delta z Δx,Δy,Δz）

3 个 token：相对角度（比如 roll/pitch/yaw 的变化，或某种角度参数化的 3 维）

1 个 token：夹爪状态（grip）

这能让模型输出一个动作时，本质上就是输出 7 个离散符号。

4.3 Action De-Tokenizer 在干嘛？

模型输出的是"第 37 档、第 128 档......"这种编号。机器人不能直接执行编号，所以 De-Tokenizer 做：

把"bin 的编号"映射回一个真实数值（比如该 bin 对应区间的中心值），得到最终的 Δ x , Δ θ , Δ g r i p \Delta x,\Delta \theta,\Delta grip Δx,Δθ,Δgrip。

5. 文本分词器 Text Tokenizer：BPE + 一个"混合词表"是重点

他们用 BPE（Sennrich et al., 2015），这很常见（子词级分词）。但这段话里真正关键的是：

词表大小 65,536，其中包含 8192 个图像 token 和 256 个动作 token。

这句话的意思非常重要： 他们把"图像 token"和"动作 token"也当成"词表里的特殊词"塞进同一个大词表里。 直觉上就是：

普通文字 token：比如 "pick", "cup", "left"

图像 token：比如 <IMG_0001> ... <IMG_8192> 这种编号

动作 token：比如 <ACT_000> ... <ACT_255>

于是模型看到的就是"一串来自同一个词典的符号"。这样就能用同一个自回归 Transformer统一处理多模态序列。

6. "自回归训练"到底怎么训练？

"自回归"= 永远在做同一件事：

给定前面所有 token，预测下一个 token。

6.1 Action Model 的训练形式（直觉）

训练样本里会有：

文本任务 token： T T T

当前图像 token： I t I_t It

真实动作 token： A t A_t At（7个token）

训练时让模型学： P ( A t ∣ T , I t ) P(A_t \mid T, I_t) P(At∣T,It) 也就是：给定任务 + 当前画面，预测下一步动作 token 序列。

6.2 World Model 的训练形式（直觉）

训练样本里会有：

文本任务 token： T T T

当前图像 token： I t I_t It

当前动作 token： A t A_t At

下一帧图像 token： I t + 1 I_{t+1} It+1

训练时让模型学： P ( I t + 1 ∣ T , I t , A t ) P(I_{t+1} \mid T, I_t, A_t) P(It+1∣T,It,At) 也就是：给定任务 + 当前画面 +

当前动作，预测下一帧画面的 token 序列。

6.3 为什么图里写了 ×M、×N、×K？

这三个"乘号"表示"重复生成很多次"：

×M（左下）：通常表示动作模型在训练/推理时会生成一段长度为 M 的动作 token 序列或处理 M 步（图是示意，具体论文怎么定义 M 可能不同，但直观含义就是"动作相关序列/步数的长度"）。

×N（右下和右上）：世界模型通常要预测未来 N 帧（一步一步往前滚动），每一步都生成下一帧 token。

×K（左上）：动作解码/输出动作可能也会在时间上滚动 K 次（比如连续做 K 个动作或生成 K 步动作）。

你可以把它统一理解成：

这个系统不是只做一步，而是"动作---世界---动作---世界......"这样滚动很多步，形成一个长时间序列的预测与控制。

7. 推理时（真正用起来）系统怎么跑？按"闭环"讲一遍

假设你现在有：

任务文本：比如"把红色杯子拿起来"

当前相机画面： I 0 I_0 I0

循环执行：

Step 1：动作模型给动作

Text Tokenizer：文本 → T T T

Image Tokenizer： I 0 I_0 I0 → 图像 token

Action Model：输出动作 token（7个）

Action De-Tokenizer：动作 token → 真实动作 ( Δ x , Δ θ , Δ g r i p ) (\Delta x,\Delta\theta,\Delta grip) (Δx,Δθ,Δgrip)

Step 2：世界模型"想象"下一帧

把 T T T、当前图像 token、动作 token 拼起来

World Model：预测下一帧图像 token

Image De-Tokenizer：图像 token → 下一帧图像 I ^ 1 \hat I_1 I^1

Step 3：重复

用 I ^ 1 \hat I_1 I^1 继续喂给动作模型，得到下一步动作......滚动 N 步。 这就是一个"会做动作 + 会想象后果"的自回归系统。

3.3 Training Strategy

0. 先把一句话讲死：WorldVLA 在干嘛？

他们想训练一个"一个模型两种能力"的东西：

动作模型（Action Model）：看"文字+图像"，输出"接下来机器人要做的动作序列"

世界模型（World Model）：看"当前图像+动作"，输出"下一帧图像"（也就是预测环境会变成啥）

然后把这两种数据混在一起训练同一个自回归模型，让它既会"想动作"，又会"想后果"。你可以把它想成一个人：

既要会"下指令怎么动手"

又要会"动了之后世界会发生什么变化"

我们将动作模型数据与世界模型数据进行混合，用于训练 WorldVLA。引入世界模型数据以增强动作生成能力主要有三点原因。首先，世界模型通过学习在给定当前状态和执行动作的情况下预测未来观测，从而获得对环境物理规律的理解。这种对环境物理的表征对操作任务具有重要帮助。其次，世界模型使系统能够对候选动作的潜在结果进行模拟与评估，从而避免可能导致不利状态的动作。第三，世界模型要求对动作输入进行精确理解，这反过来促使动作模型生成更加有效且符合上下文的动作。另一方面，动作模型能够增强对视觉信息的理解，从而反过来支持世界模型的视觉生成能力。

1. 他们为什么要混合训练？三条理由用人话解释

原文三条理由我给你翻成更直观的逻辑链：

1) 世界模型学到"物理规律"，动作会更靠谱

世界模型被迫去学习： "我现在看到这样，做了这个动作，下一秒会变成什么样" 这其实就是在逼模型理解一些物理与因果关系（推、拉、接触后会怎样）。理解这些规律后，动作模型在生成动作时就更不容易胡来。

2) 世界模型可以"脑内模拟"，帮你避坑

如果模型能预测后果，就能在内部评估： "这个动作做下去会不会把东西推倒、把目标推跑、进不利状态？" 于是动作会更稳、更安全。

3) 世界模型要求动作输入必须被理解得很精确

世界模型要靠动作去预测下一帧，所以它不能把动作当成随便的符号，它必须"真懂"每个动作 token 的含义。这种压力会反过来逼动作模型把动作 token 用得更准确。同时还有一个反向好处：动作模型训练多了，模型对视觉/文本理解更强，也会反哺世界模型的图像生成质量。

Action Model Data 动作模型数据。 动作模型的目标是在给定文本指令和图像观测的条件下生成动作。文本输入的形式为："What action should the robot take to + task instruction + ?"。整体的 token 序列如下：

其中，{text}、{image} 和 {action} 分别表示离散化后的文本、图像和动作 token。 [BOS]、[EOS]、[BOI]、[EOI]、[BOA]、[EOA] 分别表示句子起始、句子结束、图像起始、图像结束、动作起始和动作结束标记。输入包含 M 张图像，输出包含 K 个动作。我们仅对动作 token 计算损失 L a c t i o n \mathcal{L}_{{action}} Laction。

World Model Data 世界模型数据。 世界模型的任务是在给定当前图像观测和动作的情况下生成下一帧图像。由于动作本身即可完全决定下一状态，因此世界模型不需要任务指令。文本输入为："Generate the next frame based on the current image and the action."。整体 token 序列为：

在动作条件下的下一帧预测重复 N 次，我们仅对生成的图像 token 计算损失 L world \mathcal{L}_{\text{world}} Lworld。

Attention Mask 自回归模型中的标准注意力机制通常采用因果注意力掩码，如图 3(a) 所示，其限制当前 token 只能访问先前的 token，而无法访问后续 token。然而，这种传统设置并不适用于生成动作分块，即连续多个动作。尽管基础的 MLLM 由于在大规模多样化数据上的预训练，在图像和文本领域具有很强的泛化能力，但其在动作领域的泛化能力相对有限。因此，在默认注意力掩码下，早期动作中的错误会向后续动作传播，从而导致性能下降。为了解决这一问题，我们提出了一种专门用于动作生成的替代注意力掩码，如图 3(b) 所示。该改进掩码确保当前动作仅依赖文本和视觉输入，而不访问先前的动作。这种设计使自回归框架能够并行生成多个动作，与（Kim et al., 2025；Black et al., 2024）中的方法保持一致。世界模型部分仍然采用传统的因果注意力掩码，如图 3(c) 所示。

Training Objective 训练目标。 我们混合动作模型数据和世界模型数据，使自回归动作世界模型同时具备动作模型和世界模型的功能。损失函数定义为：

L = L a c t i o n + α L w o r l d , (4) \mathcal{L} = \mathcal{L}{{action}} + \alpha \mathcal{L}{{world}}, \tag{4} L=Laction+αLworld,(4)

其中， L a c t i o n \mathcal{L}{{action}} Laction 和 L w o r l d \mathcal{L}{{world}} Lworld 分别表示动作模型数据和世界模型数据的交叉熵损失。由于图像 token（256×256 图像对应 256 个 token，512×512 图像对应 1024 个 token）数量远多于动作 token（7 个 token），因此引入系数 α \alpha α 用于平衡损失项的贡献。

4 Experiments

4.1 Evaluation Benchmark

Benchmark 基准测试。 我们在实验中使用了 LIBERO 基准（Liu et al., 2023a）。 LIBERO 基准包含 LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long 以及 LIBERO-90。 LIBERO-Spatial 侧重于空间关系，要求机器人根据位置关系放置一个碗。 LIBERO-Object 强调物体识别，要求机器人抓取并放置不同的特定物体。 LIBERO-Goal 通过在固定物体条件下改变任务目标来测试过程性学习能力。 LIBERO-Long 包含 10 个长时序任务。 LIBERO-90 提供了 90 个短时序任务，用于预训练。

Datasets 数据集。 我们首先像 OpenVLA（Kim et al., 2024）一样，过滤掉失败的记录轨迹以及无操作（no-operation）动作。考虑到世界模型评估需要具有真实配对关系的视频与动作数据，我们将 90% 的轨迹划分为训练集，其余 10% 划分为验证集。默认情况下，训练集用于模型训练；但在表 2 的实验中，为保证公平比较，训练阶段使用了所有可用数据。

Baselines 基线方法。 动作模型主要分为连续动作模型和离散动作模型两类。连续动作模型并行生成多个动作，并使用 L 1 L_1 L1 回归损失进行训练。基于扩散的动作模型（如 Diffusion Policy（Chi et al., 2023）、Octo（Team et al., 2024）、DiT Policy（Hou et al., 2024）和 UVA（Li et al., 2025））通过扩散过程生成动作。 Seer（Tian et al., 2024）和 OpenVLA-OFT（Kim et al., 2025）通过动作头一次性直接输出多个动作。离散动作模型（如 OpenVLA（Kim et al., 2024））将动作视为类似文本的 token，并以自回归方式生成动作。离散模型在性能上通常处于劣势，因为动作的离散化过程可能导致信息损失。

Training Setting 训练设置。 动作模型默认使用 M = 2 M = 2 M=2 张输入图像。在默认配置下，LIBERO-Long 任务的动作分块大小设为 K = 10 K = 10 K=10，其余三个 LIBERO 任务的动作分块大小设为 K = 5 K = 5 K=5。为降低计算开销，世界模型仅运行单轮预测，即 N = 1 N = 1 N=1。实验中参数 α \alpha α 固定为 0.04。

Metrics 评估指标。 在动作模型评估中，每个任务在不同初始状态下进行 50 次 rollout，并记录成功率（SR）。在世界模型评估中，我们使用验证集，并记录 FVD、PSNR、SSIM 以及 LPIPS 指标。

4.2 Evaluation Results and Discussion

Benchmark Results 基准测试结果。 表 2 显示，即使在未进行预训练的情况下，所提出的 WorldVLA 模型仍然优于离散的 OpenVLA 模型。这一结果表明了 WorldVLA 设计的有效性。此外，可以观察到图像分辨率与模型性能之间存在正相关关系。具体而言，与 256 × 256 分辨率相比，512 × 512 分辨率带来了更优的性能表现。这一现象主要归因于 Chameleon 骨干网络（Team, 2024）的预训练方式，其图像分词模块和大语言模型组件在 512 × 512 分辨率下具有天然的优化优势。此外，更高的分辨率能够提供更丰富的视觉细节信息，这对于需要高操作精度的机器人抓取任务尤为关键。

World Model Helps Action Model 世界模型对动作模型的促进作用。 表 3 中的定量结果（如第 2 行对比第 1 行、第 5 行对比第 4 行）表明，引入世界模型能够显著提升动作模型的性能。世界模型的核心功能在于：在给定当前状态和动作的条件下，预测环境的下一状态。这一生成过程天然地促进了对系统底层物理动力学的理解，而这正是诸如抓取等精细操作任务成功执行的关键前提。此外，世界模型赋予系统进行前瞻性模拟的能力，使其能够预判潜在动作的后果。这种预测能力有助于更合理的决策制定，从而优化动作选择并最大化任务成功的概率。图 4 显示，单独的动作模型在未成功抓取奶酪或瓶子的情况下便直接移动至目标位置。相比之下，动作世界模型会反复尝试抓取物体，直到成功完成操作后才继续移动至目标位置。

Action Model Helps World Model 动作模型对世界模型的促进作用。 表 4 表明，在生成质量方面，动作世界模型优于纯世界模型，尤其是在生成较长视频序列时。动作模型基于输入图像推断动作。一方面，这有助于更准确的视觉理解；另一方面，动作生成过程本身也增强了对底层行为模式的理解。这两个方面共同支撑了世界模型的整体性能，而世界模型要有效预测未来状态，正是依赖于对视觉信息和动作信息的充分理解。如图 5 所示，纯世界模型在多个场景中失败：无法打开抽屉（a）、在移动圆盘后导致碗消失（b），以及未能将碗抬放到炉灶上（c）。相比之下，动作世界模型在这些情况下生成了连贯且符合物理规律的后续状态。

Action Chunking Generation with Proposed Attention Mask 基于所提出注意力掩码的动作分块生成。 同时生成多个动作对于实现高效且有效的抓取至关重要。然而，我们观察到一种朴素的自回归方法（即顺序生成动作）会导致模型性能下降，这一点在表 3 的第 3 行和图 6 中得到了验证。随着动作分块长度的增加，抓取成功率逐渐下降。这种性能退化的原因在于，后续动作由于与先前动作处于同一表示空间中，过度依赖已有动作，而不是以视觉输入这一独立模态为依据。由于在 MLLM 的预训练阶段并未涉及动作模态，因此动作的泛化能力并不强。因此，随着生成动作序列长度的增加，错误会不断累积。所提出的注意力掩码机制确保每个动作独立生成，并仅由视觉输入决定，从而缓解了动作序列中的误差传播问题。如图 6 所示，引入所提出注意力掩码的模型相比朴素注意力掩码具有更优的性能，尤其是在动作分块长度较长的情况下。这进一步验证了所提出掩码方法的有效性。如图 6 所示，当动作分块长度过长时，机器人难以及时调整其策略，从而导致整体性能下降。

World Model versus Video Prediction Model. 世界模型 vs. 视频预测模型。 视频预测模型的目标是基于当前帧与任务指令生成后续帧。以往研究中，视频预测被用于对动作模型进行预训练，例如 GR-1（Wu et al., 2023）和 GR-2（Cheang et al., 2024）。由于视频预测模型与世界模型都属于视觉生成模型，因此我们进行对比实验，以评估哪种框架对动作模型更有帮助。视频预测模型的文本输入为："Generate the future image based on the task and current image. + task instruction"。整体 token 序列为：

视频预测模型与世界模型的区别在于：世界模型以动作为条件，而视频预测模型不以动作为条件。如图 7 所示，引入世界模型能够在所有评估任务上提升动作模型的性能。然而，视频预测模型仅在两个任务上带来正面效果，却在一个任务上对性能产生了负面影响。这种差异可能源于：当缺少动作输入时，视频预测具有内在歧义------仅凭初始帧无法唯一确定后续帧。因此，同一个起始帧可能对应多个合理的未来帧或真实序列，这在训练过程中可能引入噪声或不一致性。此外，引入世界模型要求模型理解动作，这可能进一步促进更有效的动作生成。

Historical Image Input 历史图像输入。 用于统一理解与生成的模型（如 Chameleon（Team, 2024））通常采用离散图像分词器 VQGAN（Esser et al., 2021）进行图像解析。然而，与基于视觉感知的模型（如 CLIP（Radford et al., 2021））相比，这类模型在语义理解能力方面相对有限。如表 5 所示，仅使用单帧图像输入会导致性能不佳。为增强模型对视觉上下文的获取能力，我们引入多帧历史图像输入，从而使性能逐步提升。此外，实验结果表明，在生成动作分块时，使用两帧图像即可使性能达到饱和。因此，我们在实验中默认采用双帧图像输入配置，以在任务成功率与计算效率之间取得最佳平衡。

Pretrain Action Model using World Model 利用世界模型对动作模型进行预训练。 WorldVLA 框架在训练过程中同时融合了动作模型数据和世界模型数据。我们进一步研究了将世界模型作为动作模型预训练权重来源的可行性。这种预训练方式要求模型同时理解视觉输入、动作以及支配状态转移的底层物理动力学。如表 6 所示，采用世界模型进行预训练能够显著提升抓取性能。这些结果凸显了在机器人应用中利用世界模型进行预训练的潜力，尤其是在通过先验的通用世界知识提升具体任务性能方面。

5 Conclusion and Future Work

本文提出了 WorldVLA，一种将动作与视觉理解和生成能力统一起来的新型自回归框架。我们证明了在该架构中融合世界建模与动作建模能够实现性能上的相互增强。本文提出了一种注意力掩码机制，以支持动作序列的自回归生成。在数据规模和模型规模两个方面进行扩展，被认为是推动 WorldVLA 框架进一步发展的一个重要方向。此外，当前依赖离散表示的图像分词器在感知表达能力方面仍存在局限；因此，设计一种能够同时支持高质量视觉理解与生成的统一分词器，是一个重要的改进方向。引入辅助动作头是提升抓取性能的另一种潜在策略。我们期望本工作能够为机器人领域的未来研究提供借鉴与启发，尤其是在世界建模以及动作与图像理解和生成的统一模型方向上。