【论文阅读】Fast-WAM: Do World Action Models Need Test-time Future Imagination?

快速了解部分

基础信息(英文):

  1. 题目: Fast-WAM: Do World Action Models Need Test-time Future Imagination?
  2. 时间: 2026.03
  3. 机构: IIIS, Tsinghua University; Galaxea AI
  4. 3个英文关键词: World Action Models, Video Diffusion, Embodied Control

1句话通俗总结本文干了什么事情

发现WAM的核心价值在于训练时用视频预测任务学习更好的世界表征,而非测试时真的去生成未来视频,因此提出Fast-WAM:训练保留视频co-training,推理跳过未来预测,实现4倍加速且性能不降。

研究痛点:现有研究不足 / 要解决的具体问题

现有WAM采用"imagine-then-execute"范式,测试时需迭代视频去噪生成未来帧,推理延迟高;且不清楚性能提升到底来自"训练时的视频建模目标"还是"测试时的显式未来想象",两者被耦合在一起难以分析。

核心方法:关键技术、模型或研究设计(简要)

提出Fast-WAM架构:基于Mixture-of-Transformer,含Video DiT和Action DiT;训练时联合优化动作预测+视频预测的flow matching损失;推理时仅用Video DiT单向前向编码当前观测,得到latent world representation后直接输出动作,跳过未来视频生成。

深入了解部分

作者想要表达什么

WAM的性能增益主要来自训练阶段的视频预测目标(帮助模型学习物理先验和action-conditioned表征),而非测试时显式生成未来观测;因此可以移除测试时的未来想象步骤,在不损失性能的前提下大幅提升推理效率。

相比前人创新在哪里

  1. 首次解耦分析WAM中"训练时视频建模"与"测试时未来想象"两个因素的独立贡献
  2. 提出Fast-WAM架构,推理时单向前向、无需迭代去噪,190ms延迟,4×加速
  3. 无需embodied pretraining即可达到SOTA性能,数据效率更高

解决方法/算法的通俗解释

训练时让模型同时学两件事:预测机器人动作、预测未来视频长什么样;这样模型就能理解物理世界如何随动作变化。推理时只用"理解世界"的那部分能力,直接根据当前画面输出动作,不用真的去画未来视频,所以更快。

解决方法的具体做法

  1. 架构:基于Wan2.2-5B的Video DiT作为backbone,添加Action expert DiT,采用MoT架构+shared attention
  2. 输入token分三类:clean first-frame latents、noisy future video latents(仅训练用)、action tokens
  3. 结构化attention mask:action tokens不能attend to future video tokens,防止未来信息泄露
  4. 训练目标:joint flow matching,L = L_act + λL_vid
  5. 推理:仅保留first-frame clean tokens,单向前向通过Video DiT得到latent representation,Action DiT直接输出动作chunk

基于前人的哪些方法

  1. WAM框架:世界动作模型联合建模视频和动作
  2. Video DiT:Wan2.2-5B的视频扩散Transformer作为世界编码器
  3. Flow matching:用于视频latents和动作的联合生成建模
  4. VLA策略:测试时直接映射观测到动作的接口设计

实验设置、数据、评估方式、结论

  • 基准:LIBERO(4 suites, 40 tasks)、RoboTwin 2.0(50+双手机器人任务)、真实世界毛巾折叠任务
  • 数据:LIBERO每suite 500 demos;RoboTwin 2.5k clean + 25k randomized demos;真实世界60小时teleop数据
  • 评估:任务成功率、平均完成时间、单卡推理延迟(RTX 5090D)
  • 结论:
    • Fast-WAM在仿真和真实任务上达到SOTA,无需embodied pretraining
    • 与imagine-then-execute变体性能相当,但推理速度4倍快(190ms vs 810ms)
    • 移除视频co-training导致性能大幅下降(RoboTwin: 91.8%→83.8%),证明训练目标比测试时想象更关键

提到的同类工作

  • VLA策略:OpenVLA, π0, π0.5, RT-2, GR00T n1, Galaxea G0
  • WAM/视频策略:Motus, LingBot-VA, Vidar, DreamGen, Cosmos Policy, VPP, UVA, Mimic-Video
  • 视频生成基础:Wan2.2

和本文相关性最高的3个文献

  1. 4\] World Action Models are Zero-shot Policies (Ye et al., 2026) - 定义WAM框架,joint denoising范式代表

  2. 5\] Motus: A Unified Latent Action World Model (Bi et al., 2025) - 强baseline,对比实验核心参照

相关推荐
传说故事3 小时前
【论文阅读】StarVLA-α: Reducing Complexity in Vision-Language-Action Systems
论文阅读·人工智能·具身智能·vla
大模型最新论文速读4 小时前
RACER:无需训练,让大模型推理速度翻倍
论文阅读·人工智能·深度学习·机器学习·自然语言处理
传说故事4 小时前
【论文阅读】RADAR:通过语义规划与自主因果环境重置的闭环机器人数据生成
论文阅读·人工智能·机器人·具身智能
传说故事1 天前
【论文阅读】ViVa: A Video-Generative Value Model for Robot Reinforcement Learning
论文阅读·人工智能·强化学习·具身智能
joker_sxj1 天前
论文阅读-DeepSeek-mHC
论文阅读·算法
SCBAiotAigc1 天前
2026.4.21:在做yolo26分类任务时出现save_dir一直是个固定的一个值的避坑技巧
人工智能·具身智能·yolo26
传说故事1 天前
【论文阅读】RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis
论文阅读·人工智能·具身智能
森诺Alyson1 天前
前沿技术借鉴研讨-2026.4.16(视觉语言模型/医学影像文本多模态对齐)
论文阅读·人工智能·经验分享·计算机视觉·语言模型
锅挤1 天前
来一篇儿:《Functional Adversarial Attacks》
论文阅读