【论文自动阅读】Unified Video Action Model

快速了解部分

基础信息(英文):

  1. 题目:Unified Video Action Model
  2. 时间年月:2025.4
  3. 机构名:Stanford University
  4. 3个英文关键词:Unified Video-Action Model、Robotics Policy Learning、Decoupled Diffusion

1句话通俗总结本文干了什么事情

本文提出一种统一视频动作模型(UVA),通过联合学习视频与动作的潜在表示、解耦视频-动作解码并结合掩码训练,在机器人领域实现高精度动作推理、视频生成及前向/逆向动力学建模等多功能任务,同时兼顾效率与性能。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 动作建模与视频生成需求存在固有矛盾:动作建模需高时间速度以捕捉密集细粒度运动,而视频生成需高空间分辨率以输出高保真视觉结果,导致现有方法难以平衡二者。
  2. 纯动作方法(如[10,25,51])虽降低计算复杂度,但忽略视频生成的观测监督作用,易过拟合动作历史且对视觉干扰鲁棒性差。
  3. 视频生成优先方法(如[14,28])需先生成高分辨率视频再预测动作,存在推理速度慢、视频生成误差传递至动作预测的问题。
  4. 现有模型功能单一,多针对特定任务(如仅政策学习或仅视频生成)设计,缺乏能灵活适配多种机器人任务的统一框架。

核心方法:关键技术、模型或研究设计(简要)

  1. 统一视频-动作潜在表示:整合视觉与动作数据的潜在表示,同时利用视频和动作数据监督训练,捕捉二者间复杂动态关系,减少计算开销。
  2. 解耦视频-动作扩散:设计两个轻量级扩散头分别解码视频观测与动作,推理时可跳过视频生成直接基于潜在表示预测动作,提升推理速度。
  3. 掩码训练:通过选择性掩码输入或输出(如掩码动作、视频),使单一模型适配政策学习、视频生成、前向/逆向动力学建模等多种任务,增强灵活性与鲁棒性。

深入了解部分

相比前人创新在哪里

  1. 突破"动作-视频"权衡困境:首次通过"统一潜在表示+解耦解码"设计,既保留视频数据对动作预测的场景动态监督作用,又避免视频生成对动作推理速度的拖累,实现精度与效率双优。
  2. 多功能统一框架:借助掩码训练,使单一模型无需微调即可支持政策学习、视频生成、前向/逆向动力学建模等多任务,解决传统模型功能单一的问题,减少跨任务适配成本。
  3. 轻量高效推理:将扩散过程限制在轻量级解码头而非整个网络,同时推理时可灵活跳过视频生成步骤,相比视频生成优先方法(如UniPi)推理速度提升显著,且优于部分纯动作方法(如DP-C)。
  4. 强视觉鲁棒性:通过视频数据监督学习场景动态,相比纯动作方法(如DP-C、OpenVLA),在背景颜色变化、干扰物体存在等视觉扰动场景下,动作预测成功率更高。

解决方法/算法的通俗解释,以及具体做法

通俗解释

把机器人的"看"(视频观测)和"做"(动作执行)看作一个整体,先学习二者共同的潜在规律(类似同时理解场景和动作的关联),再分开设计"生成视频"和"预测动作"的轻量级模块。训练时可故意遮挡部分视频或动作数据让模型补全,使其学会应对不同输入输出场景;推理时若只需动作,就直接用潜在规律预测,不用先生成完整视频,既准又快。

具体做法

  1. 历史编码(Encode History)
    • 视频编码:用预训练VAE编码器(kl-f16)将每张历史图像转换为w×h×cw×h×cw×h×c的潜在特征图,展平后经全连接层映射为N个d维视觉令牌。
    • 动作编码:由于动作采样频率高于视频,将每个图像对应的L个动作组成的动作块重复M次以匹配视觉令牌数量,再经全连接层转换为N个d维动作令牌,作为预测未来的条件。
  2. 观测预测掩码自编码器(Masked Autoencoder for Observation Prediction)
    • 未来视频处理:未来图像同样经VAE和全连接层生成令牌,训练时随机掩码部分令牌,模型需重建掩码令牌。
    • 多模态融合:将历史视觉/动作令牌与掩码后的未来视觉令牌按通道拼接,再按时间维度串联为N×hN×hN×h的潜在序列,输入Transformer得到联合视频-动作潜在表示Zt+1...Zt+hZ_{t+1}...Z_{t+h}Zt+1...Zt+h;若有语言指令(如Libero10任务),用CLIP文本编码器生成语言令牌并追加到序列中。
  3. 解耦扩散解码(Decoupled Video and Action Diffusions)
    • 视频扩散头:每个潜在令牌zi∈Zt+1z_i∈Z_{t+1}zi∈Zt+1对应视频帧的一个补丁,预测补丁噪声后,经VAE解码器重建完整视频帧Ot+1O_{t+1}Ot+1。
    • 动作扩散头:用卷积层聚合Zt+1Z_{t+1}Zt+1的所有令牌,经MLP生成动作潜在表示,再预测动作块AtA_tAt的噪声;损失函数为动作扩散损失(Laction\mathcal{L}{action}Laction)与视频扩散损失(Lvideo\mathcal{L}{video}Lvideo)之和。
  4. 掩码训练(Masked Training)
    • 设计5种训练任务(如输入历史视频+动作预测未来、仅输入视频预测动作等),对未使用的输入/输出用学习的掩码令牌替换,选择性施加动作或视频损失,使模型适配不同功能场景。

实验设置、数据、评估方式

实验设置

  1. 任务类型:涵盖机器人政策学习(单任务/多任务)、视频生成、前向动力学建模、逆向动力学建模四大类任务。
  2. 环境:模拟环境(PushT、ToolHang、PushT-M、Libero10)与真实环境(ARX X5机械臂执行Cup Arrangement、Towel Folding、Mouse Arrangement任务)。
  3. 基线模型:纯动作方法(DP-C、DP-T、OpenVLA、π₀、π₀-FAST)、视频生成优先方法(UniPi、DP-UMI)、 ablation模型(UVA-action,移除视频生成模块)。
  4. 超参数:历史/未来时间跨度h=h′h=h'h=h′,动作扩散步骤16/100步(模拟用100步,真实环境用16步),视觉令牌数量N根据图像分辨率调整,Transformer采用标准注意力机制(可替换为Flash Attention提速)。

实验数据

  1. 模拟数据:PushT(推"T"形块到目标位置)、ToolHang(挂钩插入底座并挂扳手)、PushT-M(多目标位置PushT)、Libero10(10个带语言指令的机器人任务,如"将红色马克杯放在左盘并打开橱柜底抽屉")。
  2. 真实数据:UMI数据集(含Cup Arrangement、Towel Folding、Mouse Arrangement任务),训练时随机选取各任务500个episode,测试时包含分布外场景(如未见过的绿色夹爪、干扰物体、不同背景)。
  3. 辅助数据:Human Video数据集(3175个人类动作视频,用于预训练提升泛化性)。

评估方式

  1. 政策学习:用"成功率"(如PushT任务中"T"形块对齐目标的比例)和"平均奖励"(如Libero10任务中任务完成度评分)评估,同时测"推理速度"(单条动作轨迹的推理时间,单位s/ms)。
  2. 视频生成:用Fréchet Video Distance(FVD)评估,值越低表示生成视频与真实视频的视觉保真度和时间连贯性越优。
  3. 前向动力学:将模型预测的未来视频用于指导预训练政策(如DP-C)选择动作轨迹,用任务成功率(如推块到指定方格的比例)评估。
  4. 逆向动力学:用动作预测与运动捕捉(Mocap)真实动作的L2距离(位置误差单位cm,旋转误差单位°)评估。
  5. 鲁棒性:在PushT任务中修改背景颜色、添加干扰物体、改变目标颜色,统计不同扰动下的动作预测成功率。

提到的同类工作

  1. 视频生成相关:扩散基方法(Stable Video Diffusion[3]、Imagen Video[22]、Video Diffusion Models[23])、自回归方法(VideoGPT[50]、ViD-GPT[17]、ART-V[47])、视频动力学模型(GameGen-X[9]、Genie[5]、扩散游戏引擎[43])。
  2. 政策学习相关:纯动作方法(Diffusion Policy[10]、OpenVLA[25]、π₀[2])、视频生成优先方法(UniPi[14]、Dreamitate[28]、PAD[19]、Video Prediction Policy[24])。
  3. 掩码训练相关:机器人领域掩码方法(Liu et al.[31]、Wu et al.[48]、Radosavovic et al.[34])、图像掩码自编码器(MaskGIT[8]、MAE[20]、Autoregressive Image Generation[27])。
  4. 逆向动力学相关:SLAM系统(ORB-SLAM3[6])、UniPi逆向动力学模型[14]。

和本文相关性最高的3个文献

  1. 10\] Cheng Chi, Zhenjia Xu, Siyuan Feng, et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. The International Journal of Robotics Research, 2023.(核心关联:纯动作扩散政策学习的代表性工作,是UVA在政策性能、推理速度上的关键对比基线,UVA的扩散头设计部分参考其思路但实现更轻量)

  2. 27\] Tianhong Li, Yonglong Tian, He Li, et al. Autoregressive Image Generation Without Vector Quantization. arXiv preprint arXiv:2406.11838, 2024.(核心关联:UVA的掩码自编码器和视频生成模块基于该文献的"连续潜在表示 autoregressive 生成"思路扩展,移除了向量量化以减少信息损失,是UVA视频生成性能优于UniPi的关键技术基础)

相关推荐
冬奇Lab6 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab6 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP10 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年10 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼10 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS10 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区12 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈12 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang12 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx
shengjk114 小时前
NanoClaw 深度剖析:一个"AI 原生"架构的个人助手是如何运转的?
人工智能