【论文阅读】See Once, Then Act:基于单次视频演示任务学习的VLA模型

快速了解部分

题目: See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations
时间: 2025.12
机构: Beijing Institute of Technology, LimX Dynamics
3个英文关键词: One-Shot Visual Imitation Learning, Vision Language Action Models, Cross-embodiment Transfer

本文提出了一种名为ViVLA的机器人策略模型，能让机器人通过看一次人类或其他机器人的示范视频，就能学会从未见过的新操作任务，无需额外训练。

现有视觉语言动作（VLA）模型虽然强大，但无法泛化到训练数据中未见过的任务；且人类能通过简单模仿学会新技能，而现有机器人模型缺乏从单次视频示范中提取细粒度操作知识并迁移到自身（尤其是跨形态/不同机器人）的能力。

提出ViVLA模型，包含两个核心部分：一是建立统一的潜在动作空间（通过循环一致性），消除人类/不同机器人动作差异；二是开发了视频驱动的数据生成管线，将人类视频转化为机器人训练数据，并利用并行解码技术让模型通过单次示范学习动作。

作者旨在证明，通过结合视觉基础模型和特定的潜在动作学习框架，可以打破机器人训练中的数据壁垒。机器人不仅能在没有特定任务数据的情况下，通过观看单次视频学会新技能，还能跨越形态差异（如从人类视频学给机械臂用），实现通用的技能迁移。

统一潜在动作空间：不同于前人分别处理不同机器人的数据，本文提出了基于循环一致性的潜在动作学习（A3C），强制不同形态（人类/机器人）的动作在潜空间中对齐。
并行解码策略：改变了以往自回归（逐个预测动作）的方式，采用并行解码预测所有动作，防止模型依赖"偷看"前序动作而忽略视频理解，同时提高了推理速度。
大规模数据生成管线：利用3D高斯泼溅（Gaussian Splatting）技术，将人类视频重写为机器人执行的4D场景，自动生成了89万+条专家-代理配对数据。

想象你要教一个哑巴机器人做动作，但它看不懂人类语言。

数据准备：收集人类操作视频，利用视觉模型提取手部和物体姿态，用3D高斯泼溅渲染成机器人操作的4D场景，生成"人类视频-机器人动作"的配对数据。
潜在动作编码器（LAT）训练 ：
- 输入连续的图像帧。
- 利用"循环一致性"约束：从缓冲区抽取潜在动作应用到当前帧生成下一帧，再训练编码器从生成的帧中还原出原始的潜在动作。
- 引入判别器保证生成图像的真实性。
ViVLA模型训练 ：
- 基于Qwen2.5-VL模型架构。
- 输入：专家示范视频（经过时空掩码处理）+ 当前机器人观察 + 语言指令。
- 输出：预测视频中的潜在动作序列 + 机器人下一步的动作。
- 采用并行解码，一次性预测所有动作Token。

数据：构建了Human2Robot数据集（8.9万条）及整合公开数据集，共89.2万条专家-代理配对轨迹。
设置：在LIBERO基准测试（包含130个操作任务）和真实世界环境中评估。将任务分为"见过"和"未见过"两类，测试泛化能力。
评估方式：任务成功率（Success Rate）。
结论：
- 在未见过的任务上，相比OpenVLA等SOTA模型，成功率提升超过30%。
- 在跨形态（不同机器人）视频示范下，提升超过35%。
- 在真实世界人类视频示范下，未见过任务的成功率提升超过38%。