【论文阅读】Fast-WAM: Do World Action Models Need Test-time Future Imagination?

快速了解部分

基础信息(英文):

  1. 题目: Fast-WAM: Do World Action Models Need Test-time Future Imagination?
  2. 时间: 2026.03
  3. 机构: IIIS, Tsinghua University; Galaxea AI
  4. 3个英文关键词: World Action Models, Video Diffusion, Embodied Control

1句话通俗总结本文干了什么事情

发现WAM的核心价值在于训练时用视频预测任务学习更好的世界表征,而非测试时真的去生成未来视频,因此提出Fast-WAM:训练保留视频co-training,推理跳过未来预测,实现4倍加速且性能不降。

研究痛点:现有研究不足 / 要解决的具体问题

现有WAM采用"imagine-then-execute"范式,测试时需迭代视频去噪生成未来帧,推理延迟高;且不清楚性能提升到底来自"训练时的视频建模目标"还是"测试时的显式未来想象",两者被耦合在一起难以分析。

核心方法:关键技术、模型或研究设计(简要)

提出Fast-WAM架构:基于Mixture-of-Transformer,含Video DiT和Action DiT;训练时联合优化动作预测+视频预测的flow matching损失;推理时仅用Video DiT单向前向编码当前观测,得到latent world representation后直接输出动作,跳过未来视频生成。

深入了解部分

作者想要表达什么

WAM的性能增益主要来自训练阶段的视频预测目标(帮助模型学习物理先验和action-conditioned表征),而非测试时显式生成未来观测;因此可以移除测试时的未来想象步骤,在不损失性能的前提下大幅提升推理效率。

相比前人创新在哪里

  1. 首次解耦分析WAM中"训练时视频建模"与"测试时未来想象"两个因素的独立贡献
  2. 提出Fast-WAM架构,推理时单向前向、无需迭代去噪,190ms延迟,4×加速
  3. 无需embodied pretraining即可达到SOTA性能,数据效率更高

解决方法/算法的通俗解释

训练时让模型同时学两件事:预测机器人动作、预测未来视频长什么样;这样模型就能理解物理世界如何随动作变化。推理时只用"理解世界"的那部分能力,直接根据当前画面输出动作,不用真的去画未来视频,所以更快。

解决方法的具体做法

  1. 架构:基于Wan2.2-5B的Video DiT作为backbone,添加Action expert DiT,采用MoT架构+shared attention
  2. 输入token分三类:clean first-frame latents、noisy future video latents(仅训练用)、action tokens
  3. 结构化attention mask:action tokens不能attend to future video tokens,防止未来信息泄露
  4. 训练目标:joint flow matching,L = L_act + λL_vid
  5. 推理:仅保留first-frame clean tokens,单向前向通过Video DiT得到latent representation,Action DiT直接输出动作chunk

基于前人的哪些方法

  1. WAM框架:世界动作模型联合建模视频和动作
  2. Video DiT:Wan2.2-5B的视频扩散Transformer作为世界编码器
  3. Flow matching:用于视频latents和动作的联合生成建模
  4. VLA策略:测试时直接映射观测到动作的接口设计

实验设置、数据、评估方式、结论

  • 基准:LIBERO(4 suites, 40 tasks)、RoboTwin 2.0(50+双手机器人任务)、真实世界毛巾折叠任务
  • 数据:LIBERO每suite 500 demos;RoboTwin 2.5k clean + 25k randomized demos;真实世界60小时teleop数据
  • 评估:任务成功率、平均完成时间、单卡推理延迟(RTX 5090D)
  • 结论:
    • Fast-WAM在仿真和真实任务上达到SOTA,无需embodied pretraining
    • 与imagine-then-execute变体性能相当,但推理速度4倍快(190ms vs 810ms)
    • 移除视频co-training导致性能大幅下降(RoboTwin: 91.8%→83.8%),证明训练目标比测试时想象更关键

提到的同类工作

  • VLA策略:OpenVLA, π0, π0.5, RT-2, GR00T n1, Galaxea G0
  • WAM/视频策略:Motus, LingBot-VA, Vidar, DreamGen, Cosmos Policy, VPP, UVA, Mimic-Video
  • 视频生成基础:Wan2.2

和本文相关性最高的3个文献

  1. 4 World Action Models are Zero-shot Policies (Ye et al., 2026) - 定义WAM框架,joint denoising范式代表
  2. 3 Causal World Modeling for Robot Control (Li et al., 2026) - video-then-action范式,Fast-WAM-IDM的参考
  3. 5 Motus: A Unified Latent Action World Model (Bi et al., 2025) - 强baseline,对比实验核心参照
相关推荐
大模型最新论文速读16 小时前
06-02 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Agilex松灵机器人16 小时前
IsaacLab机械臂数据采集教程:实现松灵7轴机械臂键盘控制与遥操作!
人工智能·仿真·具身智能·isaaclab·松灵机器人·松灵机械臂
五羟基己醛18 小时前
【Robotics】半小时入门具身智能之手动创建第一个项目
机器人·robot·具身智能·isaacsim
Rocky Ding*2 天前
深入浅出完整解析AIGC时代中GAN(Generative Adversarial Network)系列模型核心基础知识(下篇)
论文阅读·人工智能·深度学习·机器学习·aigc·gan·ai-native
AI猫站长2 天前
快讯|地瓜机器人旭日S600 560TOPS算力平台适配自变量具身基础模型,蚂蚁灵波与简智联合研发专属数采设备,龙旗工厂智元机器人8小时作业成功率99.5%
大数据·人工智能·机器学习·机器人·具身智能
chnyi6_ya3 天前
论文阅读笔记|Wan: Open and Advanced Large-Scale Video Generative Models
论文阅读·笔记
路人甲3263 天前
Moravec‘s Paradox and the Robot Olympics
人工智能·深度学习·计算机视觉·机器人·具身智能
Godspeed Zhao3 天前
跨越天际:从智能汽车到 eVTOL 的适航与系统级开发10——DO-178C 的确定性
科技·汽车·具身智能·evtol
chnyi6_ya3 天前
论文阅读:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
论文阅读·深度学习·transformer
一颗小树x3 天前
《VLA 系列》复现 realtime-vla | 加速推理 | Triton后端
加速·推理·vla·realtime-vla