快速了解部分
基础信息(英文):
- 题目:Unified Video Action Model
- 时间年月:2025.4
- 机构名:Stanford University
- 3个英文关键词:Unified Video-Action Model、Robotics Policy Learning、Decoupled Diffusion
1句话通俗总结本文干了什么事情
本文提出一种统一视频动作模型(UVA),通过联合学习视频与动作的潜在表示、解耦视频-动作解码并结合掩码训练,在机器人领域实现高精度动作推理、视频生成及前向/逆向动力学建模等多功能任务,同时兼顾效率与性能。
研究痛点:现有研究不足 / 要解决的具体问题
- 动作建模与视频生成需求存在固有矛盾:动作建模需高时间速度以捕捉密集细粒度运动,而视频生成需高空间分辨率以输出高保真视觉结果,导致现有方法难以平衡二者。
- 纯动作方法(如[10,25,51])虽降低计算复杂度,但忽略视频生成的观测监督作用,易过拟合动作历史且对视觉干扰鲁棒性差。
- 视频生成优先方法(如[14,28])需先生成高分辨率视频再预测动作,存在推理速度慢、视频生成误差传递至动作预测的问题。
- 现有模型功能单一,多针对特定任务(如仅政策学习或仅视频生成)设计,缺乏能灵活适配多种机器人任务的统一框架。
核心方法:关键技术、模型或研究设计(简要)
- 统一视频-动作潜在表示:整合视觉与动作数据的潜在表示,同时利用视频和动作数据监督训练,捕捉二者间复杂动态关系,减少计算开销。
- 解耦视频-动作扩散:设计两个轻量级扩散头分别解码视频观测与动作,推理时可跳过视频生成直接基于潜在表示预测动作,提升推理速度。
- 掩码训练:通过选择性掩码输入或输出(如掩码动作、视频),使单一模型适配政策学习、视频生成、前向/逆向动力学建模等多种任务,增强灵活性与鲁棒性。
深入了解部分
相比前人创新在哪里
- 突破"动作-视频"权衡困境:首次通过"统一潜在表示+解耦解码"设计,既保留视频数据对动作预测的场景动态监督作用,又避免视频生成对动作推理速度的拖累,实现精度与效率双优。
- 多功能统一框架:借助掩码训练,使单一模型无需微调即可支持政策学习、视频生成、前向/逆向动力学建模等多任务,解决传统模型功能单一的问题,减少跨任务适配成本。
- 轻量高效推理:将扩散过程限制在轻量级解码头而非整个网络,同时推理时可灵活跳过视频生成步骤,相比视频生成优先方法(如UniPi)推理速度提升显著,且优于部分纯动作方法(如DP-C)。
- 强视觉鲁棒性:通过视频数据监督学习场景动态,相比纯动作方法(如DP-C、OpenVLA),在背景颜色变化、干扰物体存在等视觉扰动场景下,动作预测成功率更高。
解决方法/算法的通俗解释,以及具体做法
通俗解释
把机器人的"看"(视频观测)和"做"(动作执行)看作一个整体,先学习二者共同的潜在规律(类似同时理解场景和动作的关联),再分开设计"生成视频"和"预测动作"的轻量级模块。训练时可故意遮挡部分视频或动作数据让模型补全,使其学会应对不同输入输出场景;推理时若只需动作,就直接用潜在规律预测,不用先生成完整视频,既准又快。
具体做法
- 历史编码(Encode History)
- 视频编码:用预训练VAE编码器(kl-f16)将每张历史图像转换为w×h×cw×h×cw×h×c的潜在特征图,展平后经全连接层映射为N个d维视觉令牌。
- 动作编码:由于动作采样频率高于视频,将每个图像对应的L个动作组成的动作块重复M次以匹配视觉令牌数量,再经全连接层转换为N个d维动作令牌,作为预测未来的条件。
- 观测预测掩码自编码器(Masked Autoencoder for Observation Prediction)
- 未来视频处理:未来图像同样经VAE和全连接层生成令牌,训练时随机掩码部分令牌,模型需重建掩码令牌。
- 多模态融合:将历史视觉/动作令牌与掩码后的未来视觉令牌按通道拼接,再按时间维度串联为N×hN×hN×h的潜在序列,输入Transformer得到联合视频-动作潜在表示Zt+1...Zt+hZ_{t+1}...Z_{t+h}Zt+1...Zt+h;若有语言指令(如Libero10任务),用CLIP文本编码器生成语言令牌并追加到序列中。
- 解耦扩散解码(Decoupled Video and Action Diffusions)
- 视频扩散头:每个潜在令牌zi∈Zt+1z_i∈Z_{t+1}zi∈Zt+1对应视频帧的一个补丁,预测补丁噪声后,经VAE解码器重建完整视频帧Ot+1O_{t+1}Ot+1。
- 动作扩散头:用卷积层聚合Zt+1Z_{t+1}Zt+1的所有令牌,经MLP生成动作潜在表示,再预测动作块AtA_tAt的噪声;损失函数为动作扩散损失(Laction\mathcal{L}{action}Laction)与视频扩散损失(Lvideo\mathcal{L}{video}Lvideo)之和。
- 掩码训练(Masked Training)
- 设计5种训练任务(如输入历史视频+动作预测未来、仅输入视频预测动作等),对未使用的输入/输出用学习的掩码令牌替换,选择性施加动作或视频损失,使模型适配不同功能场景。
实验设置、数据、评估方式
实验设置
- 任务类型:涵盖机器人政策学习(单任务/多任务)、视频生成、前向动力学建模、逆向动力学建模四大类任务。
- 环境:模拟环境(PushT、ToolHang、PushT-M、Libero10)与真实环境(ARX X5机械臂执行Cup Arrangement、Towel Folding、Mouse Arrangement任务)。
- 基线模型:纯动作方法(DP-C、DP-T、OpenVLA、π₀、π₀-FAST)、视频生成优先方法(UniPi、DP-UMI)、 ablation模型(UVA-action,移除视频生成模块)。
- 超参数:历史/未来时间跨度h=h′h=h'h=h′,动作扩散步骤16/100步(模拟用100步,真实环境用16步),视觉令牌数量N根据图像分辨率调整,Transformer采用标准注意力机制(可替换为Flash Attention提速)。
实验数据
- 模拟数据:PushT(推"T"形块到目标位置)、ToolHang(挂钩插入底座并挂扳手)、PushT-M(多目标位置PushT)、Libero10(10个带语言指令的机器人任务,如"将红色马克杯放在左盘并打开橱柜底抽屉")。
- 真实数据:UMI数据集(含Cup Arrangement、Towel Folding、Mouse Arrangement任务),训练时随机选取各任务500个episode,测试时包含分布外场景(如未见过的绿色夹爪、干扰物体、不同背景)。
- 辅助数据:Human Video数据集(3175个人类动作视频,用于预训练提升泛化性)。
评估方式
- 政策学习:用"成功率"(如PushT任务中"T"形块对齐目标的比例)和"平均奖励"(如Libero10任务中任务完成度评分)评估,同时测"推理速度"(单条动作轨迹的推理时间,单位s/ms)。
- 视频生成:用Fréchet Video Distance(FVD)评估,值越低表示生成视频与真实视频的视觉保真度和时间连贯性越优。
- 前向动力学:将模型预测的未来视频用于指导预训练政策(如DP-C)选择动作轨迹,用任务成功率(如推块到指定方格的比例)评估。
- 逆向动力学:用动作预测与运动捕捉(Mocap)真实动作的L2距离(位置误差单位cm,旋转误差单位°)评估。
- 鲁棒性:在PushT任务中修改背景颜色、添加干扰物体、改变目标颜色,统计不同扰动下的动作预测成功率。
提到的同类工作
- 视频生成相关:扩散基方法(Stable Video Diffusion[3]、Imagen Video[22]、Video Diffusion Models[23])、自回归方法(VideoGPT[50]、ViD-GPT[17]、ART-V[47])、视频动力学模型(GameGen-X[9]、Genie[5]、扩散游戏引擎[43])。
- 政策学习相关:纯动作方法(Diffusion Policy[10]、OpenVLA[25]、π₀[2])、视频生成优先方法(UniPi[14]、Dreamitate[28]、PAD[19]、Video Prediction Policy[24])。
- 掩码训练相关:机器人领域掩码方法(Liu et al.[31]、Wu et al.[48]、Radosavovic et al.[34])、图像掩码自编码器(MaskGIT[8]、MAE[20]、Autoregressive Image Generation[27])。
- 逆向动力学相关:SLAM系统(ORB-SLAM3[6])、UniPi逆向动力学模型[14]。
和本文相关性最高的3个文献
-
10\] Cheng Chi, Zhenjia Xu, Siyuan Feng, et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. The International Journal of Robotics Research, 2023.(核心关联:纯动作扩散政策学习的代表性工作,是UVA在政策性能、推理速度上的关键对比基线,UVA的扩散头设计部分参考其思路但实现更轻量)
-
27\] Tianhong Li, Yonglong Tian, He Li, et al. Autoregressive Image Generation Without Vector Quantization. arXiv preprint arXiv:2406.11838, 2024.(核心关联:UVA的掩码自编码器和视频生成模块基于该文献的"连续潜在表示 autoregressive 生成"思路扩展,移除了向量量化以减少信息损失,是UVA视频生成性能优于UniPi的关键技术基础)