【学习笔记】RIGVid：通过模仿生成视频实现机器人操作，无需物理演示

摘要

本文提出 RIGVid（Robots Imitating Generated Videos），一个使机器人能够仅通过模仿 AI 生成的视频来执行复杂操作任务的系统，无需任何物理演示或机器人特定训练。

核心流程：

给定语言指令和初始场景图像，视频扩散模型生成潜在演示视频
VLM 自动过滤掉不符合指令的生成结果
6D 位姿跟踪器从视频中提取物体轨迹
轨迹以具身无关的方式重定向到机器人

实验结果：

过滤后的生成视频与真实演示视频效果相当
性能随生成质量提升而提高
相比 VLM 的关键点预测方法（如 ReKep）和替代轨迹提取方法均有显著优势

1. 研究背景与动机

1.1 传统视频模仿学习的局限

方法类型	代表工作	主要问题
公开视频数据集	Bahl et al., Ye et al.	域差距大，需适配机器人具身
特定演示采集	Bahl et al., Kareer et al.	数据采集耗时，需对齐视角和形态

1.2 视频生成的机遇与挑战

机遇：SORA、Kling 等模型可从语言和图像输入生成逼真视频

挑战：生成视频可能存在：

物体几何扭曲
物理不合理的交互
场景动态不真实

1.3 核心研究问题

机器人能否仅通过模仿生成的视频来执行真实世界操作任务，无需任何额外监督或任务特定训练？

2. 方法：RIGVid

2.1 系统概述

输入：

初始场景 RGB 图像
对应深度图
自由形式语言指令

输出：机器人 6-DoF 末端执行器轨迹

四个关键步骤：

步骤	功能
1. 视频生成与深度估计	生成场景和任务条件化的视频，用单目深度估计器预测深度
2. 6D 位姿轨迹提取	通过物体位姿跟踪器计算 6D 位姿 rollout
3. 抓取与重定向	抓取物体，将位姿轨迹重定向到机器人
4. 闭环执行	实时跟踪物体位姿，处理扰动

2.2 视频生成与过滤

生成模型比较：

模型	特点	适用性
Sora	视觉震撼，但常改变场景布局、物体位置、相机视角	❌ 不适合
Kling v1.5	较好地遵循语言指令，但有物理不合理行为	⚠️ 部分可用
Kling v1.6	指令遵循和物理合理性大幅提升	✅ 最可靠

VLM 过滤机制：

从视频中均匀采样 4 帧，垂直拼接成视频摘要
GPT-4o 判断指令描述的动作是否由可见手执行
最多尝试 5 次，全部失败则使用最后一次

过滤统计（Kling v1.6）：

任务	通过率
倒水	83%
掀盖子	66%
放铲子	55%
扫垃圾	45%

2.3 物体位姿轨迹提取

主动物体识别：

GPT-4o 识别最可能被操作的物体
Grounding DINO 生成边界框
SAM-2 生成分割掩码

位姿跟踪：

使用 FoundationPose（需要物体网格）
网格通过 BundleSDF 预计算（录制物体旋转视频）
应用平均滤波平滑位姿变化

深度估计与对齐：

单目深度估计存在尺度-偏移歧义
用第一帧的深度图对齐，计算仿射变换并应用到整个视频

2.4 物体到机器人的重定向

抓取：使用 AnyGrasp 在主动物体掩码周围执行最高分抓取

重定向：

假设抓取后末端执行器与物体之间固定变换
变换 = 物体相对于夹爪的位姿 × 夹爪相对于末端执行器的偏移
将固定变换应用到物体的整个位姿序列，得到末端执行器轨迹

关键优势：具身无关------更换机器人只需更新末端执行器到物体的变换

2.5 闭环执行与扰动恢复

实时跟踪：部署期间用 FoundationPose 实时更新物体 6D 位姿

扰动检测与恢复：

阈值	动作
位置偏差 > 3 cm	回退到最后成功执行的轨迹点
方向偏差 > 20 度	重新对齐并继续执行

3. 实验设计

3.1 硬件平台

组件	规格
机械臂	xArm7
相机	Orbbec Femto Bolt（RGB-D）
相机位置	机器人旁边

3.2 评估任务

任务	挑战	成功标准
倒水	深度变化小，需平滑轨迹	壶嘴位于植物上方
掀盖子	深度变化大（自上而下视角）	盖子脱离锅
放铲子	薄物体、部分遮挡	铲头在锅中
扫垃圾	精确定位 + 上述所有挑战	垃圾接触簸箕底座

3.3 基线方法

基线	核心方法	与 RIGVid 的差异
Track2Act	初始图 + 目标图 → 2D 点轨迹 → PnP → 3D 位姿	只用首尾帧，无中间信息
AVDC	生成视频 → 光流 → 优化重建轨迹	依赖帧间光流，误差累积
4D-DPM	3D 高斯泼溅 + 特征场跟踪	跟踪不稳定，计算慢
Gen2Act	生成视频 → 点跟踪 → PnP → 位姿	使用中间帧点跟踪
ReKep	VLM 生成关键点约束 → 求解轨迹	紧凑抽象表示

4. 实验结果

4.1 视频质量对性能的影响

视频源	过滤	倒水	掀盖子	放铲子	扫垃圾	平均
Sora	无	0%	0%	0%	0%	0%
Kling v1.5	无	40%	20%	10%	0%	17.5%
Kling v1.6	无	80%	60%	50%	20%	52.5%
Kling v1.6	有	100%	80%	90%	70%	85%
真实视频	有	100%	90%	90%	80%	90%

关键发现：

视频质量与任务成功率正相关
过滤后的 Kling v1.6 视频与真实视频表现相当
生成视频已可有效替代真实演示

4.2 RIGVid vs. ReKep（VLM 轨迹预测）

方法	平均成功率
ReKep	50%
RIGVid	85%

失败原因：ReKep 的关键点预测不准确（如盖子把手无关键点、铲子任务关键点聚在角落）

结论：视频生成提供的密集视觉监督比紧凑抽象表示更有效

4.3 轨迹提取方法对比

方法	倒水	掀盖子	放铲子	扫垃圾	平均
Track2Act	20%	10%	0%	0%	7.5%
AVDC	50%	30%	20%	30%	32.5%
4D-DPM	60%	40%	20%	20%	35.0%
Gen2Act	80%	70%	60%	60%	67.5%
RIGVid	100%	80%	90%	70%	85.0%

各类方法的失效模式：

方法	主要失效原因
Track2Act	预测轨迹偏离真实路径
AVDC	光流误差跨帧累积
4D-DPM	跟踪不稳定、抖动
Gen2Act	物体旋转大时跟踪点丢失

4.4 深度估计的影响分析

配置	平均成功率
真实视频 + 真实深度	100%
真实视频 + 生成深度	85%
生成视频 + 生成深度	85%

深度估计错误类型：

不准确：铲子靠近相机时深度仅变化 6.8 cm（远小于实际）
时序闪烁：连续三帧内深度变化 1.9 cm（物理上不可能）

结论：主要误差源是单目深度估计，而非视频生成本身

4.5 泛化能力

跨具身迁移：

ALOHA 机器人（倒水）：80% 成功率
ALOHA 双臂（放鞋子到盒子）：成功

扩展任务（无需物理演示，仅生成视频）：

擦拭、混合、熨烫
扶正番茄酱瓶
拔充电器
旋转勺子倒豆子

5. 核心创新总结

创新点	说明
首个无需物理演示的生成视频模仿方法	仅靠生成视频完成真实世界操作
VLM 自动过滤机制	高精度过滤不符合指令的视频（几乎无误报）
6D 物体位姿轨迹提取	优于点跟踪、光流、特征场等方法
闭环执行与扰动恢复	实时跟踪 + 偏差检测 + 自动回退
具身无关的重定向	同一策略可迁移到不同机器人
深度估计误差分析	识别单目深度估计为主要瓶颈

6. 局限性与未来方向

局限性	未来方向
需要物体网格（FoundationPose）	更快的 mesh-free 跟踪
单目深度估计不准确且闪烁	更好的深度预测模型或多目系统
视频生成计算成本高	更高效的生成模型或蒸馏
部分任务视频生成通过率低	改进视频生成模型的指令遵循能力
场景需简洁（无干扰物体）	更鲁棒的生成模型

7. 与 ReKep 的本质区别

维度	ReKep（VLM 直接预测）	RIGVid（视频生成）
表示形式	关键点 + 约束	完整视频
信息密度	稀疏	密集
推理方式	求解优化问题	模仿学习
对 VLM 的要求	精确预测关键点坐标	判断视频是否有效
当前效果	50% 成功率	85% 成功率

核心洞察：视频生成虽然计算成本高，但其提供的密集视觉监督对于复杂操作任务至关重要。紧凑的抽象表示（如关键点）丢失了太多信息，导致 VLM 难以准确预测。

8. 结论

本文提出的 RIGVid 首次实现了仅通过生成视频即可让机器人执行真实世界操作任务，无需任何物理演示。

主要贡献：

端到端框架连接视频生成模型与机器人执行
证明高质量生成视频与真实视频作为模仿来源同样有效
6D 物体位姿跟踪优于多种替代轨迹提取方法
在倒水、掀盖子、放铲子、扫垃圾等任务上达到 85% 平均成功率

RIGVid 展示了生成式 AI 作为机器人训练数据来源的巨大潜力，为减少昂贵的数据采集需求提供了新路径。

9. 资源

🌐 项目主页：https://rigvid-robot.github.io/
📄 论文标题：Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations
👨‍🔬 作者：Shivansh Patel, Shraddhaa Mohan, Hanlin Mai 等（UIUC + UC Irvine + Columbia）