τ0-WM：用于机器人操纵的统一视频-动作世界模型

26年5月来自上海创新研究院和智元机器人的论文"τ0-WM: A Unified Video-Action World Model for Robotic Manipulation"。

机器人操纵任务要求模型不仅能生成可执行的动作，还能在实际物理执行之前，预先推演并评估这些动作的未来后果。为此，本文提出一种名为 τ0-World Model (τ0-WM) 的统一视频-动作世界模型；该模型将策略学习、视频预测和动作评估整合于一个单一的未来预测框架之中。τ0-WM 以共享的视频扩散骨干网络为基础，提供两个相互补充的接口。首先，其中的"视频-动作模型"能够综合利用多视角观测数据、语言指令及机器人状态信息，联合预测未来的视觉隐变量序列与连续动作片段。其次，其中的"动作-条件视频模拟器（ACVS）"能够将候选动作片段推演展开为多视角的未来情景，并预测密集的任务进度评分。该模型基于约 27,300 小时的海量数据进行训练，数据来源涵盖真实机器人的远程操控、UMI 风格的人机交互、第一人称视角的任务视频，以及动作推演或任务失败的轨迹数据；在训练过程中，模型采用针对不同模态特性的监督掩码机制。在推理阶段，τ0-WM 会利用测试-时的计算资源来采样候选动作，通过"重去噪一致性"指标对这些动作进行排序，并针对质量较差的候选动作调用基于模拟器的校正机制。在极具挑战性的长时程、精细化机器人操纵任务中，τ0-WM 展现出超越其他相关基准模型的卓越性能。

A 机器人视频动作模型

视频-动作模型（VAMs）通过联合预测视频与动作，将未来预测能力引入到机器人控制领域 $29, 5, 24, 26, 45, 43, 27, 46, 28, 44$ 。近期的大多数方法均基于预训练的视频生成扩散模型 $39, 16, 42$ 构建，并采用"联合去噪"范式，即同时生成未来的视觉隐变量（visual latents）与动作片段 $1, 29, 5, 24, 26$ 。这些研究成果表明，未来预测能够为机器人操纵任务提供富有成效且具备动态感知能力的表征。部分近期系统进一步提升模型的可扩展性或运行效率，例如 Motus $5$ 系统，它集成场景理解、视频生成、世界建模与控制四大功能；又如 Fast-WAM $45$ 系统，该研究探索在策略推理阶段移除未来预测环节以降低系统延迟的方法。

与以往主要将未来预测作为策略学习的辅助目标，或仅作为一种可选视觉输出的 VAMs 不同，τ0-WM 系统将视频-动作建模视为机器人操纵任务的统一基础。其内置的 VAM 模块能够联合预测多视角的未来隐变量与可执行的动作片段，并与一个"动作-条件"的模拟器共享同一套预测表征。这一设计使得未来预测能力不仅可用于表征学习，还能在测试阶段用于动作的评估与修正。此外，τ0-WM 系统的训练数据涵盖异构机器人数据、UMI 数据以及第一人称视角的交互数据 $38, 23, 9, 31, 19$ ；在训练过程中，系统会利用每一类数据源所提供的特定信号进行监督学习。

B. 用于机器人领域的动作-条件视频模拟器

另一类相关的研究工作则将视频模型用作"动作-条件"的模拟器，以此辅助决策制定。早期的"视觉预见"（visual foresight）方法通过学习动作条件驱动的视频预测器，并结合模型预测控制（MPC）技术，来选取那些其预测的未来状态与预设目标相吻合的动作 $11, 10$ 。随着大规模视频生成技术近期取得的进展 $7, 14, 34, 37, 25, 39$ ，近期的机器人系统开始将视频模型与机器人动作、末端执行器轨迹或可控令牌进行条件关联，以此来预测操作过程演化、评估策略或辅助强化学习 $1, 2, 29, 15, 21, 12, 8$ 。

相比之下，τ0-WM 并不将仿真器作为一个独立的模块来使用。其"动作条件视频仿真器"（ACVS）与 VAM 共享动作接口和骨干网络配置，在同一套异构混合数据集上进行训练，并能同时预测多视角的未来演化过程以及任务进度得分。在测试阶段，这一设计使 τ0-WM 能够突破单纯的前馈式动作预测模式：它会对候选动作进行采样，依据"重去噪一致性"对这些动作进行排序，并在实际执行前调用 ACVS 来对低质量的候选动作进行评估与修正。

一种通用型视频-动作-模型（Video Action Model）不应仅从单一的机器人实体或数据采集流程中进行学习，而应从异构的交互数据中汲取养分，这些数据能够提供互补形式的监督信号。因此，构建一个时长达 27.3K 小时的训练语料库，其数据源主要包含三个部分：17.8K 小时的真实机器人遥控操作数据，分别采集自 AGIBOT-G01、ARX 机械臂以及双臂 Franka 系统；6.5K 小时的经过筛选的开源 UMI 风格演示数据，利用 Gen-DAS 夹爪 $13$ 进行采集；以及 3.0K 小时的开源第一人称视角人类交互视频 $19, 35, 36$ 。这些数据源在机器人实体形态、视角、动作保真度、采集成本以及行为多样性等方面各具差异，这使得它们天然适用于不同的训练目标。

a) 真实机器人遥控操作：真实机器人演示数据能够提供最为可靠的动作监督信号。在数据集中，动作轨迹数据分别采集自 AGIBOT-G01、ARX 以及双臂 Franka 平台，涵盖家庭、零售和工业等多种应用场景；采集过程中通常会同时使用头部视角相机和安装在手腕处的相机进行录制。由于这些演示数据是直接在机器人系统上生成的，其动作指令与机器人的运动学特性、控制器接口、感知系统栈以及实际部署时的运行条件高度契合。因此，对于将模型能力真正落地为可执行的机器人行为而言，此类数据具有不可或缺的关键作用。与此同时，真实机器人数据的采集成本高昂，且受限于现有的机器人平台、工作空间、操作对象以及任务设置等客观条件；这使得仅凭此类数据本身，尚不足以支撑模型实现广泛的泛化能力。

b) UMI 风格演示数据：UMI 风格的数据提供一种更具可扩展性的操作经验来源。通过使用类似夹爪的手持式设备，操作人员能够在各种多样的环境中采集演示数据，且其所需的基础设施成本远低于完整的机器人遥控操作模式。这些演示数据不仅提供丰富的视觉交互信息，还能从设备自身的运动轨迹中提取出类动作信号；这些信号中蕴含着关于操作意图以及物体交互过程的有用信息。然而，这些信号与最终部署在机器人上的可执行动作之间仅存在较弱的对应关系，因为用于数据采集的设备在实体形态、运动学特性、驱动方式以及控制接口等方面，均与目标机器人存在显著差异。因此，将 UMI 风格的演示数据视为一种具有良好可扩展性，但其监督强度相对较弱的视频动作监督数据。

c) 第一人称视角的人机交互视频：第一人称视角的人类视频提供对日常操作行为最广泛的覆盖。它们使模型能够接触到形形色色的物体、环境、接触模式、状态变化以及跨越长时程的任务结构。然而，与机器人数据或 UMI 数据不同的是，第一人称视角视频不包含适用于机器人的动作标签，且在具身（embodiment）和视角方面存在显著差异。因此，仅将其用于视频预测任务：它们用于为视觉动态建模提供监督信号，但不参与动作损失函数的计算。

d) 统一监督机制：上述三种数据源共同构建一个层级化的监督体系。真实机器人数据提供与实际部署场景高度契合的动作标签；UMI 风格的数据提供多样化的交互轨迹，但其所蕴含的动作信号相对较弱；而第一人称视角视频则提供大规模的视觉动态信息，但缺乏动作层面的监督信号。为了对所有数据源进行联合训练，采用一种统一的"视频-动作"表征方式，并辅以针对不同模态的特定监督掩码。对于每一个样本，该掩码都会明确指定：哪些输入数据是可观测的、哪些目标数据是需要预测的，以及哪些损失函数是处于激活状态的。这一机制使得异构数据能够共同服务于同一个端到端的优化目标，同时也充分兼顾了各类监督信号在可靠性与可用性方面的差异。

如图 1 所示τ0-WM 框架概览。该框架利用来自真实机器人的异构交互数据、UMI 风格的采集数据以及以自我为视角的真人视频，来训练一个"视频-动作模型"和一个"动作条件视频模拟器"。在部署阶段，系统会提出候选动作，通过测试-时计算及基于模拟器的评分机制来评估预想的未来情景，进而选取或修正动作，以实现跨任务和跨载体的鲁棒操作。

如图 2 所示τ0-WM 的架构。视频-动作模型（VAM）充当策略接口，利用共享的视频主干网络与通过交叉注意耦合的 Action DiT 分支，共同预测未来的视觉隐变量及可执行的动作块。动作条件视频模拟器（ACVS）充当评估接口，重用视频生成主干网络来推演 VAM 提出的动作块，并预测密集的奖励得分，以辅助测试阶段的动作选择。

A 模型接口与问题表述

视频动作模型（VAM）充当 τ0-WM 面向策略的接口。它利用一种共享的预测表征，联合学习未来的视觉动态与可执行的机器人动作。给定当前的多视角观测 o_t、语言指令 p 以及机器人状态 s_t，VAM 预测一条未来的潜轨迹，并伴随预测一段可执行的动作片段。未来视觉预测不仅作为一种辅助目标，还充当着一种机制，用于从异构数据源（包括未附带动作标注的视频）中学习可迁移的交互动力学；与此同时，动作预测则将所学到的表征锚定于可执行的机器人控制之上。

B 架构

如图 2(a) 所示，VAM 由两个紧密耦合的组件构成：一个用于未来视觉预测的视频分支，以及一个用于生成可执行动作的动作分支。这两个分支共享一种通用的预测表征，并通过特征层面的交叉注意机制进行交互，从而使未来的视觉动态能够直接为动作生成提供支持。

VAM 是基于 Wan2.2-TI2V-5B $39$ 实例化而成的。首先，一个 Wan VAE 编码器将每个摄像机视角编码为潜张量。对于同步的多视角输入，各视角的潜张量沿空间宽度维度进行拼接，从而形成一个在时间上对齐的"潜画布"。当前的观测潜张量被保留为纯净状态，用作视觉上下文；而未来的潜槽位则由视频分支负责进行加噪与去噪处理。视频分支采用原版 Wan 视频 DiT 主干网络（包含 50 亿参数）实现，并通过条件去噪的方式预测未来的潜轨迹。动作分支则是一个包含 5 亿参数的 DiT 风格动作解码器 $33$ ，它与视频 Transformer 紧密耦合。两者协同工作，共同构成包含 55 亿参数的"视频动作模型"（Video Action Model）。

在 Transformer 架构中相对应的层级上，动作 Token 首先对动作时间窗口内的时序依赖关系进行建模，随后通过交叉注意机制与中间层的视频特征进行交互。这些视频特征同时受纯净视觉上下文和语言指令的制约，从而为动作分支提供既感知指令又关联动态信息的视觉表征。这种特征层面的耦合设计沿袭近期动作专家模型 $29, 20$ 的设计理念，同时也保留视频主干网络作为共享的预测基础架构。

C. 联合流匹配目标函数

VAM 将流匹配（Flow Matching） $30$ 技术同时应用于未来的视频潜张量和动作片段。

其期望值的计算涵盖各类异构的训练样本，这些样本具有不同的监督层级。其中，机器人轨迹数据既为视觉预测提供了监督信号，也为动作生成提供了监督信号；而第一人称视角的真人视频数据则仅为视觉动态预测项提供监督。对于缺失的模态数据，系统通过引入"监督掩码"机制进行处理，从而确保所有数据源都能统一参与到同一个训练流程之中。

D. 推理与部署

在推理阶段，VAM 接收最新的多视角观测 o_t、语言指令 p 以及机器人状态 s_t 作为输入，并预测出一个可执行的动作片段。当需要进行显式的视觉演化展示时，未来的潜变量可被解码为视频帧；若仅用于辅助动作生成，则可保留为潜表示形式。这一设计使得系统支持两种部署模式：在"仅动作"部署模式下，系统仅生成并以滚动时域（receding-horizon）的方式执行预测的动作片段，从而实现高效的实时控制；而在"启用演化"部署模式下，VAM 还会额外预测未来的视觉潜变量，这些变量可被解码为多视角视频，从而允许在需要时将未来的场景演变过程进行显式可视化呈现。

A. 仿真器接口与问题形式化

如图 2(b) 所示，动作条件视频模拟器（ACVS）充当 τ0-WM 的评估接口。VAM 负责提出可执行的动作片段，而 ACVS 则负责估算由候选动作所引发的未来后果。ACVS 并非在机器人实体上逐一执行每一个候选动作，而是通过预测未来的视觉演化序列及密集的奖励轨迹，为部署阶段的评估提供一种基于动作条件代理的模拟手段。

给定记忆观测序列 o_t-M:t、语言指令 p 以及候选动作片段 a_t:t+H_a-1，ACVS 预测未来的视频隐变量及相应的密集奖励得分。ACVS 本身并非动作策略；它将候选动作片段视为一种纯净的条件输入，并对该动作所引发的未来情景进行评估。

B. 架构

ACVS 复用 Wan VAE 和视频 Transformer 主干网络 $39$ ，但移除其中的 Action DiT 策略分支。记忆观测与当前观测被编码为纯净的隐变量上下文，而未来的隐变量槽位则先由噪声初始化，随后经由视频主干网络进行去噪处理。

为了使未来的预测结果受候选动作的制约，沿用 Cosmos $2$ 中的动作条件设计。对于每一个未来的隐变量槽位 l，与其在时间上对齐的动作会被归整为一个动作块 b_l，并通过轻量级 MLP 进行投影处理；这些投影结果随后分别被注入到扩散时嵌入（diffusion-time embedding）和 AdaLN 调制嵌入（AdaLN modulation embedding）之中。由此产生的动作条件信息会被广播至对应未来槽位的所有空间 Token 和相机视角上，而观测槽位（observation slots）则保持不受此条件制约。

与 VAM 不同，ACVS 并不负责生成动作。其唯一目的在于评估在给定的动作序列执行下，场景将如何演变；这一机制使得在相同的观测数据和指令输入下，不同的候选动作能够引发各异的"想象未来"情景。

C. 奖励与进度评分

除了预测未来的视觉演化序列外，ACVS 还为每个候选动作片段预测一条密集的奖励轨迹。将每个操纵任务分解为若干子任务，并在子任务层级上分配进度标签。随后，通过在每个子任务片段内部进行蒙特卡洛传播，估算出帧级别的奖励，从而产生密集的监督信号，而非仅仅提供单一的最终成功标签。

在构建奖励机制时，有意纳入失败数据。对于失败的子任务片段，其对应轨迹上的奖励值将被设定为负值。这些失败案例能够教会 ACVS 识别那些在特定动作条件下，会导致接触失败、物体运动异常或任务进度倒退的未来情景。因此，ACVS 能够学会区分：哪些动作能推动任务取得实质性进展，而哪些动作仅仅产生在视觉上看似合理的运动。

为了进一步提升模拟器的保真度，在模拟器训练中特别补充包含大量失败案例及恢复过程的轨迹数据。尽管此类数据作为直接的策略监督信号可能并非最优选择，但对于模拟器本身的训练而言却极具价值；因为它能让模型接触到那些"偏离分布"的动作、失败的交互过程以及恢复性行为------而这些内容仅凭成功的演示数据是难以观察到的。

D. 训练目标

ACVS 沿用与 VAM 相同的流匹配（flow-matching）公式，并对未来的视频潜表示（latents）与密集的奖励轨迹进行联合监督训练。

在大规模异构交互数据上进行预训练，使得条件动作分布天然呈现出多模态特性：针对相同的指令和场景，机器人可能通过多种可行的动作序列来完成任务。这些解决方案在精度、鲁棒性以及成功概率方面可能各不相同。因此，在部署阶段如何选取高质量的动作，便成为一个至关重要的实际问题。

为了应对这一挑战，τ0-WM 采用一种"由粗到细"的测试时计算策略。它首先从 VAM 中采样出多个候选动作，并运用一种轻量级的"自洽性"过滤器来筛选出其中可靠的候选。仅当采样的候选动作显得不可靠时，系统才会调用 ACVS 模块，进行成本更高昂的、基于"动作推演"（rollout）的评估与动作修正。这种设计既确保系统在绝大多数情况下的实时性能，又保留在遭遇困难状态时进行自我恢复的能力。整个流程概述于算法 1（Alg. 1）中。

A. 重去噪一致性得分

给定当前上下文 C_t = (o_t, p, s_t)，VAM 会采样出 N 个候选动作片段 { a ̄⁽ⁱ⁾}。

对于每一个候选动作，随机采样 K 个流时间步（flow timesteps），并依据训练阶段所采用的同一套流匹配（flow-matching）流程，对该动作进行重加噪处理。随后，VAM 内部的动作向量场会对这一重加噪后的动作进行评估，从而得出一个平均重去噪误差 E⁽ⁱ⁾_RCS。

重去噪一致性得分（RCS）充当一种轻量级的分布过滤器。它倾向于选择那些与已习得的条件动作流形更为一致的候选对象，且相较于基于展开（rollout）的评估方法，其引入的计算开销微乎其微。

B. 低质量动作纠正

尽管 RCS 能够从采样的动作中识别出最具自洽性的候选项，但在具有挑战性的状态下，所有的候选项仍可能表现不佳。因此，引入低质量动作纠正（LAR）。

其并未直接执行相应的动作，而是基于选定的未来推演（rollout）执行第二次策略查询。具体而言，推演潜变量 zˆ^(j⋆) 被转化为一种额外的未来条件并注入 VAM 中，从而使策略能够生成一段经过精炼的动作序列，该序列明确地被引导向所选定的高价值未来。这一修正过程已在算法 2 中进行归纳总结。

实验设置。本实验涵盖三种机器人实体------AGIBOT-G01、ARX 机械臂以及双臂 Franka 系统------并包含受语言指令制约的多视角打包与装配任务。主要的评估指标为任务成功率。将 τ0-WM 与具有代表性的策略基线及视频-动作基线进行对比，其中包括 π0.5 $6$ 和 Fast-WAM $45$ 。针对部署阶段的推理过程，还额外将本研究提出的测试时计算策略与标准执行模式、无分类器引导（CFG） $18$ 以及动作一致性引导（ACG） $32$ 进行对比。