Fast-WAM:重构 WAMs 的效率与性能平衡

传统WAM遵循"先想象再执行"的范式------先通过视频扩散模型迭代去噪生成未来画面,再基于这些想象出的画面预测动作。这种设计虽然直观,但测试时延迟极高,动辄几百毫秒甚至数秒。更关键的是,没人能说清楚这种显式未来生成到底对动作预测有多大帮助。论文的核心假设是:WAM的优势可能主要来自训练阶段的视频建模目标,而非测试时的未来生成。

OpenClaw 火到爆,90% 人装不上!2026年4 月 11 日 17:30|叶梓老师免费直播零基础保姆级安装,命令行 / 环境坑一次全解。

基于这个思路,团队提出了Fast-WAM 。架构上采用混合Transformer(MoT)设计,包含一个视频DiT和一个动作专家DiT,两者共享注意力机制。图2展示了这套架构的训练和推理流程:训练时,当前帧的干净潜变量token、未来帧的噪声token以及动作token分别进入视频DiT和动作DiT,通过结构化的注意力掩码确保动作token只能看到当前观察,不能偷看未来视频信息;推理时则完全砍掉未来视频分支,视频DiT只做一次前向传播提取世界表征,动作专家基于这些表征直接生成动作。

为了严谨验证假设,团队设计了三个对照变体。图1对比了三种代表性范式:(A)联合生成式WAM同时去噪未来视频和动作;(B)因果式WAM先完整生成未来视频再基于其预测动作;(C)Fast-WAM训练时保留视频共训练但推理时跳过未来生成。团队还额外构造了一个去除视频共训练目标的版本,作为检验训练目标本身作用的直接对照。

实验结果相当有说服力。在仿真基准测试上,表1 显示Fast-WAM在RoboTwin上达到91.8%的成功率,与联合生成式变体(90.6%)和因果式变体(91.3%)几乎持平,但去除视频共训练后性能骤降至83.8%。表2的LIBERO结果呈现相同模式:Fast-WAM平均成功率97.6%,与两个想象-执行变体(98.5%和98.0%)差距极小,而无视频共训练版本跌至93.5%。

图4的柱状图直观展示了推理延迟对比------Fast-WAM仅需190毫秒,比联合生成式(580毫秒)和因果式(810毫秒)快了4倍以上,与VLA基线π₀.₅(180毫秒)相当。在真实世界的毛巾折叠任务中,Fast-WAM不仅保持了高成功率,完成时间也更短,展现出优秀的闭环控制能力。

这些发现暗示了一个反直觉的结论:WAM中视频预测的主要价值在于训练阶段塑造更好的世界表征,而非测试时显式生成未来画面。换句话说,让模型"学会想象"比让它"真的去想象"更重要。Fast-WAM用单遍前向传播替代迭代去噪,既保留了世界建模带来的表征优势,又实现了实时推理,为具身智能的落地应用提供了更实用的技术路径。

项目链接:https://fast-wam.github.io/

相关推荐
IT_陈寒7 小时前
SpringBoot那个自动配置的坑,害我排查到凌晨三点
前端·人工智能·后端
常威正在打来福7 小时前
不想让你的网页长得像「AI 做的」?试试这个
人工智能·aigc·ai编程
大模型推理7 小时前
《从 0 实现 SGLang》第 1 篇 · LLM 推理引擎到底在做什么
人工智能
PILIPALAPENG7 小时前
Python 语法速成指南:前端开发者视角(JS 类比版)
前端·人工智能·python
云边云科技_云网融合7 小时前
企业大模型时代的网络架构五层演进:从连接到智能的范式重构
网络·重构·架构
Binary_Soul7 小时前
一文读懂:如何让 Claude Code 拥有"过目不忘"的记忆力
人工智能
黎阳之光7 小时前
黎阳之光:以视频孪生重构智慧医院信息化,打造高标项目核心竞争力
大数据·人工智能·物联网·算法·数字孪生
东风破_7 小时前
Claude Code 实战指南:像带实习生一样让 AI 帮你维护项目
人工智能
常威正在打来福7 小时前
frontend-design入门指南:OpenClaw/Claude Code/Codex 三平台安装教程
人工智能·aigc·ai编程
百度智能云技术站7 小时前
百度 Agent 安全中心:构筑企业智能体的安全底座
人工智能·安全·dubbo