Fast-WAM——在训练期间保留视频联合训练，但在推理时移除显式的未来生成，直接在一次前向传播中，从潜在世界表征预测动作

前言

在本文中，来自的研究者探讨：世界模型代理（WAM）在测试阶段是否需要显式的未来想象，还是其优势主要来源于训练阶段的视频建模

作者通过提出Fast-WAM 来解耦训练时的视频建模与推理时的显式未来生成这两者的作用。Fast-WAM 是一种 WAM 架构，在训练过程中保留视频共训练（co-training），但在推理时跳过未来预测
且作者进一步构建了若干 Fast-WAM变体，以便对这两个因素进行可控对比
在这些变体中，作者发现 Fast-WAM 依然能够与"先想象后执行"（imagine-then-execute）类方法保持有竞争力的性能，而去除视频共训练则会导致性能出现更大幅度的下降
即
一方面，如果需要对应变体在推理时依然可以先生成未来视觉状态
二方面模型训练时最好是带着视频预测共同训练

实证结果表明，在 WAM 中，视频预测的主要价值可能在于训练阶段提升世界表征，而非在推理阶段生成未来观测

第一部分 Fast-WAM: Do World Action Models NeedTest-time Future Imagination?

1.1 引言与相关工作

1.1.1 引言

如原论文所说，现有的 WAM 大致可以归纳为两类具有代表性的范式：

未来视频与动作通过共享注意力机制联合去噪 $4,6,5$
在生成未来视频之后，再在其条件上预测动作 $3,7,8$

当然了，大多数现有的 WAM（World Action Models）遵循"先想象再执行"的范式：它们首先生成未来观测结果，然后在想象出的未来条件下预测动作

虽然这种设计直观易懂，但由于需要反复进行视频去噪 $1,2,3,4,5$ ，会在推理时引入显著的延迟。从更根本的层面看，目前仍不清楚：显式的未来想象是否真的是获得强动作性能所必需的

WAM 的有效性可能来源于两个截然不同的因素：

训练阶段的视频预测目标，这可能有助于模型学习更强的物理先验和与动作相关的表征
推理阶段的显式未来生成，这可能为动作预测提供额外的前瞻信息

现有 WAM 系统通常将这两个因素纠缠在一起，使得难以判断究竟是哪一项真正带来了性能提升

来自的研究者重新审视这一设计选择，并提出一个简单的问题：WAM 在测试时是否真的需要去"想象"未来的观测，还是它们主要受益于在训练过程中学习对未来观测进行建模？

作者的核心思路是，将用于 WAM 训练的视频预测目标，与推理阶段显式生成未来视频的过程解耦 。如果世界建模的主要价值在于在训练期间塑造更优的潜在表征，那么 WAM 应当能够在"不付出推理时进行未来视频合成"这一代价的前提下，依然保留这种收益
基于这一视角，作者提出了 Fast-WAM，这是一种在训练阶段保留视频协同训练（videoco-training），但在推理阶段跳过未来预测的 WAM 架构

Fast-WAM 不再像以往那样在推理过程中使用预训练的视频生成模型迭代合成未来帧，而是将一个预训练的视频 DiffusionTransformer(DiT)重新用作单次前向的世界编码器，用于动作生成

具体而言，作者采用共享注意力的 Mixture-of-Transformer（MoT）架构构建 Fast-WAM，该架构由一个视频DiT 和一个动作专家 DiT 组成，如图 1(C) 所示『*三种具有代表性的 WAM 范式。(A) 联合建模式 WAM 将未来视频和动作token 一并去噪。（B）因果式 WAM 先生成未来观测，然后在生成的未来表征上进行条件动作预测。（C）*Fast-WAM 在训练期间保留视频联合训练，但在推理时移除显式的未来生成，直接在一次前向传播中，从潜在世界表征预测动作』

在训练过程中，视频预测目标促使视频DiT 学习编码具有物理意义的运动和交互结构
在推理过程中，视频 DiT 通过一次前向传递处理观测上下文，并为动作去噪提供潜在的世界表示，从而避免显式的未来视频去噪，实现高效的实时控制

1.1.2 相关工作

首先，对于视觉-语言-行动策略

具身基础模型的最新进展主要得益于视觉-语言-行动（Vision-Language-Action，VLA）策略，这类模型利用大规模预训练的视觉-语言骨干网络 $9,10,11,12,13,14,15,16,17,18,19$ ，将视觉观测和语言指令直接映射为机器人动作

通过继承来自网页规模预训练的强语义先验，这些模型在物体、场景以及语言指令等多方面展现出很强的泛化能力
然而，正如近期 WAM 相关工作所指出的，标准的 VLA 预训练主要基于静态图文数据，并未显式建模物理世界在动作作用下如何演化 $3,4$
作者的工作与这一研究方向是互补的：Fast-WAM 在测试阶段同样保留了类似 VLA 的直接策略接口，但在训练时额外引入了基于未来视觉预测的世界建模目标来学习这一接口

其次，对于世界动作模型与基于视频的机器人策略

另一条平行的研究路线是通过未来视觉预测来进行机器人控制，即将视频生成作为建模环境动力学并推断动作的一种方式 $8,20,21,7,22,23,24,25,26,27,28,29,30,31$

最新的方法在此基础上进一步扩展，将未来视频和机器人动作联合建模在一个统一框架中 $6,2,32,33,1,3,5,4$
作者遵循 $4$ 将此类模型称为 World Action Models（WAMs，世界动作模型），因为它们利用世界建模（即预测未来视觉状态）来支持下游动作预测

大多数现有的 WAM
要么遵循"想象后执行"（imagine-then-execute）范式：先生成未来的视觉轨迹，再据此进行动作预测
要么在一个共享的生成过程内联合建模未来视频与动作

作者的工作与这一路线最为接近，但关注点不同：作者并非再提出一种新的"想象后执行"WAM，而是研究 WAM的收益主要来源于训练阶段的视频联合训练，还是来源于推理阶段显式的未来想象

作者的工作也与最近的一些研究相关，这些研究利用视频建模进行动作预测，同时在测试时减少或绕过显式的视频合成。VPP $34$ 将机器人策略条件化在由视频扩散模型提取的预测性视觉表征上，而 UVA $35$ 则联合建模视频和动作，并在测试时跳过视频解码以实现更快速的推理

与这些工作相比，作者的重点在于在一个共享的框架下，通过一系列可控变体来解耦训练阶段视频协同训练与测试阶段未来想象各自所起的相对作用

1.1.3 问题表述

考虑从视觉观测和语言指令中进行具身策略学习。令表示当前观测，表示任务指令，表示视野为的动作片段。一个标准的视觉运动策略建模条件分布

它将当前的感知上下文直接映射为一系列动作

世界动作模型（World Action Models，WAMs）通过将未来的视觉观测作为中间环节引入，来扩展这一形式化表述变量

令表示在预测范围内的未来视觉观测。许多现有的WAM 遵循先想象再执行的分解方式：

在这种范式下，模型首先预测未来观测，然后在"想象"的未来基础上生成动作

在实践中，这通常通过两种方式实现：

要么在一个共享模型中联合去噪未来视频和动作
要么先生成未来视频，再将其输入到逆动力学或动作预测模块中

一些先前的 WAM 进一步在这一公式外层包裹自回归式的滚动展开，但为了简化并便于可控对比，作者在此不采用该设计

作者的出发点是这样一种观察：WAM 的有效性可能源自两个不同的因素：

训练期间使用的视频预测目标，它可以促使模型学习具有物理意义的潜在表示
推理时的显式未来生成，它可能为动作预测提供额外的前瞻性

现有的WAM 形式通常将这两个因素耦合在一起，因为同一个模型既从未来视频预测中学习，又在推理时显式合成未来观测

作者设计了 Fast-WAM 来解耦这两个因素

在训练期间，它保留世界建模作为一个联合训练信号
然而在推理期间，它并不显式生成未来观测
相反，Fast-WAM 直接根据当前观测和指令预测动作

同时利用由视频协同训练塑造的潜在世界表征

从这个意义上说，Fast-WAM 在测试时具有类似于标准 VLA 策略的直接策略接口，而其表征学习在训练期间仍然扎根于 WAM 风格的视频建模
形式化地，设表示由视频主干网络在给定当前上下文条件下生成的潜在世界表征。Fast-WAM 使用该表征来参数化动作分布

此与" 先想象再执行" 的WAMs 的关键区别在于，是通过一次前向编码过程获得的，而不是在推理时显式地对未来观测进行采样或去噪

1.2 Fast-WAM的完整方法论

1.2.1 模型架构

Fast-WAM 的设计目标是在保留世界建模带来的训练收益的同时，去除显式未来想象在推理阶段带来的开销

在训练过程中，它联合学习动作预测和视频建模，从而鼓励视觉骨干网络捕获具有物理意义的运动和交互结构
在推理过程中，Fast-WAM 不会显式生成未来观测。相反，它仅保留第一帧观测的干净潜在 token，用视频模型在一次前向传播中对其进行处理，并将得到的潜在世界表征用于直接生成动作
这样，Fast-WAM 在测试时具有直接策略接口，同时在训练阶段仍然保留类似 WAM 的视频监督

// 26年4.1日上午继续更..