快速了解部分
基础信息(英文):
- 题目: Fast-WAM: Do World Action Models Need Test-time Future Imagination?
- 时间: 2026.03
- 机构: IIIS, Tsinghua University; Galaxea AI
- 3个英文关键词: World Action Models, Video Diffusion, Embodied Control
1句话通俗总结本文干了什么事情
发现WAM的核心价值在于训练时用视频预测任务学习更好的世界表征,而非测试时真的去生成未来视频,因此提出Fast-WAM:训练保留视频co-training,推理跳过未来预测,实现4倍加速且性能不降。
研究痛点:现有研究不足 / 要解决的具体问题
现有WAM采用"imagine-then-execute"范式,测试时需迭代视频去噪生成未来帧,推理延迟高;且不清楚性能提升到底来自"训练时的视频建模目标"还是"测试时的显式未来想象",两者被耦合在一起难以分析。
核心方法:关键技术、模型或研究设计(简要)
提出Fast-WAM架构:基于Mixture-of-Transformer,含Video DiT和Action DiT;训练时联合优化动作预测+视频预测的flow matching损失;推理时仅用Video DiT单向前向编码当前观测,得到latent world representation后直接输出动作,跳过未来视频生成。
深入了解部分
作者想要表达什么
WAM的性能增益主要来自训练阶段的视频预测目标(帮助模型学习物理先验和action-conditioned表征),而非测试时显式生成未来观测;因此可以移除测试时的未来想象步骤,在不损失性能的前提下大幅提升推理效率。
相比前人创新在哪里
- 首次解耦分析WAM中"训练时视频建模"与"测试时未来想象"两个因素的独立贡献
- 提出Fast-WAM架构,推理时单向前向、无需迭代去噪,190ms延迟,4×加速
- 无需embodied pretraining即可达到SOTA性能,数据效率更高
解决方法/算法的通俗解释
训练时让模型同时学两件事:预测机器人动作、预测未来视频长什么样;这样模型就能理解物理世界如何随动作变化。推理时只用"理解世界"的那部分能力,直接根据当前画面输出动作,不用真的去画未来视频,所以更快。
解决方法的具体做法
- 架构:基于Wan2.2-5B的Video DiT作为backbone,添加Action expert DiT,采用MoT架构+shared attention
- 输入token分三类:clean first-frame latents、noisy future video latents(仅训练用)、action tokens
- 结构化attention mask:action tokens不能attend to future video tokens,防止未来信息泄露
- 训练目标:joint flow matching,L = L_act + λL_vid
- 推理:仅保留first-frame clean tokens,单向前向通过Video DiT得到latent representation,Action DiT直接输出动作chunk
基于前人的哪些方法
- WAM框架:世界动作模型联合建模视频和动作
- Video DiT:Wan2.2-5B的视频扩散Transformer作为世界编码器
- Flow matching:用于视频latents和动作的联合生成建模
- VLA策略:测试时直接映射观测到动作的接口设计
实验设置、数据、评估方式、结论
- 基准:LIBERO(4 suites, 40 tasks)、RoboTwin 2.0(50+双手机器人任务)、真实世界毛巾折叠任务
- 数据:LIBERO每suite 500 demos;RoboTwin 2.5k clean + 25k randomized demos;真实世界60小时teleop数据
- 评估:任务成功率、平均完成时间、单卡推理延迟(RTX 5090D)
- 结论:
- Fast-WAM在仿真和真实任务上达到SOTA,无需embodied pretraining
- 与imagine-then-execute变体性能相当,但推理速度4倍快(190ms vs 810ms)
- 移除视频co-training导致性能大幅下降(RoboTwin: 91.8%→83.8%),证明训练目标比测试时想象更关键
提到的同类工作
- VLA策略:OpenVLA, π0, π0.5, RT-2, GR00T n1, Galaxea G0
- WAM/视频策略:Motus, LingBot-VA, Vidar, DreamGen, Cosmos Policy, VPP, UVA, Mimic-Video
- 视频生成基础:Wan2.2
和本文相关性最高的3个文献
-
4\] World Action Models are Zero-shot Policies (Ye et al., 2026) - 定义WAM框架,joint denoising范式代表
-
5\] Motus: A Unified Latent Action World Model (Bi et al., 2025) - 强baseline,对比实验核心参照