【学习笔记】RIGVid:通过模仿生成视频实现机器人操作,无需物理演示

摘要

本文提出 RIGVid(Robots Imitating Generated Videos),一个使机器人能够仅通过模仿 AI 生成的视频来执行复杂操作任务的系统,无需任何物理演示或机器人特定训练。

核心流程

  1. 给定语言指令和初始场景图像,视频扩散模型生成潜在演示视频
  2. VLM 自动过滤掉不符合指令的生成结果
  3. 6D 位姿跟踪器从视频中提取物体轨迹
  4. 轨迹以具身无关的方式重定向到机器人

实验结果

  • 过滤后的生成视频与真实演示视频效果相当
  • 性能随生成质量提升而提高
  • 相比 VLM 的关键点预测方法(如 ReKep)和替代轨迹提取方法均有显著优势

1. 研究背景与动机

1.1 传统视频模仿学习的局限

方法类型 代表工作 主要问题
公开视频数据集 Bahl et al., Ye et al. 域差距大,需适配机器人具身
特定演示采集 Bahl et al., Kareer et al. 数据采集耗时,需对齐视角和形态

1.2 视频生成的机遇与挑战

机遇:SORA、Kling 等模型可从语言和图像输入生成逼真视频

挑战:生成视频可能存在:

  • 物体几何扭曲
  • 物理不合理的交互
  • 场景动态不真实

1.3 核心研究问题

机器人能否仅通过模仿生成的视频来执行真实世界操作任务,无需任何额外监督或任务特定训练?


2. 方法:RIGVid

2.1 系统概述

输入

  • 初始场景 RGB 图像
  • 对应深度图
  • 自由形式语言指令

输出:机器人 6-DoF 末端执行器轨迹

四个关键步骤

步骤 功能
1. 视频生成与深度估计 生成场景和任务条件化的视频,用单目深度估计器预测深度
2. 6D 位姿轨迹提取 通过物体位姿跟踪器计算 6D 位姿 rollout
3. 抓取与重定向 抓取物体,将位姿轨迹重定向到机器人
4. 闭环执行 实时跟踪物体位姿,处理扰动

2.2 视频生成与过滤

生成模型比较

模型 特点 适用性
Sora 视觉震撼,但常改变场景布局、物体位置、相机视角 ❌ 不适合
Kling v1.5 较好地遵循语言指令,但有物理不合理行为 ⚠️ 部分可用
Kling v1.6 指令遵循和物理合理性大幅提升 ✅ 最可靠

VLM 过滤机制

  • 从视频中均匀采样 4 帧,垂直拼接成视频摘要
  • GPT-4o 判断指令描述的动作是否由可见手执行
  • 最多尝试 5 次,全部失败则使用最后一次

过滤统计(Kling v1.6):

任务 通过率
倒水 83%
掀盖子 66%
放铲子 55%
扫垃圾 45%

2.3 物体位姿轨迹提取

主动物体识别

  • GPT-4o 识别最可能被操作的物体
  • Grounding DINO 生成边界框
  • SAM-2 生成分割掩码

位姿跟踪

  • 使用 FoundationPose(需要物体网格)
  • 网格通过 BundleSDF 预计算(录制物体旋转视频)
  • 应用平均滤波平滑位姿变化

深度估计与对齐

  • 单目深度估计存在尺度-偏移歧义
  • 用第一帧的深度图对齐,计算仿射变换并应用到整个视频

2.4 物体到机器人的重定向

抓取:使用 AnyGrasp 在主动物体掩码周围执行最高分抓取

重定向

  • 假设抓取后末端执行器与物体之间固定变换
  • 变换 = 物体相对于夹爪的位姿 × 夹爪相对于末端执行器的偏移
  • 将固定变换应用到物体的整个位姿序列,得到末端执行器轨迹

关键优势:具身无关------更换机器人只需更新末端执行器到物体的变换

2.5 闭环执行与扰动恢复

实时跟踪:部署期间用 FoundationPose 实时更新物体 6D 位姿

扰动检测与恢复

阈值 动作
位置偏差 > 3 cm 回退到最后成功执行的轨迹点
方向偏差 > 20 度 重新对齐并继续执行

3. 实验设计

3.1 硬件平台

组件 规格
机械臂 xArm7
相机 Orbbec Femto Bolt(RGB-D)
相机位置 机器人旁边

3.2 评估任务

任务 挑战 成功标准
倒水 深度变化小,需平滑轨迹 壶嘴位于植物上方
掀盖子 深度变化大(自上而下视角) 盖子脱离锅
放铲子 薄物体、部分遮挡 铲头在锅中
扫垃圾 精确定位 + 上述所有挑战 垃圾接触簸箕底座

3.3 基线方法

基线 核心方法 与 RIGVid 的差异
Track2Act 初始图 + 目标图 → 2D 点轨迹 → PnP → 3D 位姿 只用首尾帧,无中间信息
AVDC 生成视频 → 光流 → 优化重建轨迹 依赖帧间光流,误差累积
4D-DPM 3D 高斯泼溅 + 特征场跟踪 跟踪不稳定,计算慢
Gen2Act 生成视频 → 点跟踪 → PnP → 位姿 使用中间帧点跟踪
ReKep VLM 生成关键点约束 → 求解轨迹 紧凑抽象表示

4. 实验结果

4.1 视频质量对性能的影响

视频源 过滤 倒水 掀盖子 放铲子 扫垃圾 平均
Sora 0% 0% 0% 0% 0%
Kling v1.5 40% 20% 10% 0% 17.5%
Kling v1.6 80% 60% 50% 20% 52.5%
Kling v1.6 100% 80% 90% 70% 85%
真实视频 100% 90% 90% 80% 90%

关键发现

  • 视频质量与任务成功率正相关
  • 过滤后的 Kling v1.6 视频与真实视频表现相当
  • 生成视频已可有效替代真实演示

4.2 RIGVid vs. ReKep(VLM 轨迹预测)

方法 平均成功率
ReKep 50%
RIGVid 85%

失败原因:ReKep 的关键点预测不准确(如盖子把手无关键点、铲子任务关键点聚在角落)

结论:视频生成提供的密集视觉监督比紧凑抽象表示更有效

4.3 轨迹提取方法对比

方法 倒水 掀盖子 放铲子 扫垃圾 平均
Track2Act 20% 10% 0% 0% 7.5%
AVDC 50% 30% 20% 30% 32.5%
4D-DPM 60% 40% 20% 20% 35.0%
Gen2Act 80% 70% 60% 60% 67.5%
RIGVid 100% 80% 90% 70% 85.0%

各类方法的失效模式

方法 主要失效原因
Track2Act 预测轨迹偏离真实路径
AVDC 光流误差跨帧累积
4D-DPM 跟踪不稳定、抖动
Gen2Act 物体旋转大时跟踪点丢失

4.4 深度估计的影响分析

配置 平均成功率
真实视频 + 真实深度 100%
真实视频 + 生成深度 85%
生成视频 + 生成深度 85%

深度估计错误类型

  1. 不准确:铲子靠近相机时深度仅变化 6.8 cm(远小于实际)
  2. 时序闪烁:连续三帧内深度变化 1.9 cm(物理上不可能)

结论:主要误差源是单目深度估计,而非视频生成本身

4.5 泛化能力

跨具身迁移

  • ALOHA 机器人(倒水):80% 成功率
  • ALOHA 双臂(放鞋子到盒子):成功

扩展任务(无需物理演示,仅生成视频):

  • 擦拭、混合、熨烫
  • 扶正番茄酱瓶
  • 拔充电器
  • 旋转勺子倒豆子

5. 核心创新总结

创新点 说明
首个无需物理演示的生成视频模仿方法 仅靠生成视频完成真实世界操作
VLM 自动过滤机制 高精度过滤不符合指令的视频(几乎无误报)
6D 物体位姿轨迹提取 优于点跟踪、光流、特征场等方法
闭环执行与扰动恢复 实时跟踪 + 偏差检测 + 自动回退
具身无关的重定向 同一策略可迁移到不同机器人
深度估计误差分析 识别单目深度估计为主要瓶颈

6. 局限性与未来方向

局限性 未来方向
需要物体网格(FoundationPose) 更快的 mesh-free 跟踪
单目深度估计不准确且闪烁 更好的深度预测模型或多目系统
视频生成计算成本高 更高效的生成模型或蒸馏
部分任务视频生成通过率低 改进视频生成模型的指令遵循能力
场景需简洁(无干扰物体) 更鲁棒的生成模型

7. 与 ReKep 的本质区别

维度 ReKep(VLM 直接预测) RIGVid(视频生成)
表示形式 关键点 + 约束 完整视频
信息密度 稀疏 密集
推理方式 求解优化问题 模仿学习
对 VLM 的要求 精确预测关键点坐标 判断视频是否有效
当前效果 50% 成功率 85% 成功率

核心洞察:视频生成虽然计算成本高,但其提供的密集视觉监督对于复杂操作任务至关重要。紧凑的抽象表示(如关键点)丢失了太多信息,导致 VLM 难以准确预测。


8. 结论

本文提出的 RIGVid 首次实现了仅通过生成视频即可让机器人执行真实世界操作任务,无需任何物理演示。

主要贡献

  1. 端到端框架连接视频生成模型与机器人执行
  2. 证明高质量生成视频与真实视频作为模仿来源同样有效
  3. 6D 物体位姿跟踪优于多种替代轨迹提取方法
  4. 在倒水、掀盖子、放铲子、扫垃圾等任务上达到 85% 平均成功率

RIGVid 展示了生成式 AI 作为机器人训练数据来源的巨大潜力,为减少昂贵的数据采集需求提供了新路径。


9. 资源

  • 🌐 项目主页https://rigvid-robot.github.io/
  • 📄 论文标题:Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations
  • 👨‍🔬 作者:Shivansh Patel, Shraddhaa Mohan, Hanlin Mai 等(UIUC + UC Irvine + Columbia)
相关推荐
c7692 小时前
【文献笔记】Learn to Relax with LLMs: Solving COPs via Bidirectional Coevolution
论文阅读·人工智能·笔记·语言模型·论文笔记·提示工程
不爱土豆唯爱马铃薯2 小时前
MC-030 | 从学习到生产
学习
zhangle1hao2 小时前
从零开始学习ai agent开发
人工智能·学习
2401_872418782 小时前
Slide AI — 智能课件学习助手
人工智能·学习
Bnews2 小时前
买家电一对一的定制服务推荐:2026年618期间的专业选择指南
经验分享·笔记
佛系豪豪吖2 小时前
AtomCode 部署流程与使用经验
笔记·chatgpt·github·ai编程·gitcode
聆思科技AI芯片2 小时前
AI语音视觉开发板对接 OpenClaw 龙虾实现多模态交互
人工智能·学习·交互·语音识别·智能硬件
黑科技研究僧2 小时前
蘑兔AI的12轨分轨功能:编曲师深度测评
人工智能·经验分享·vscode·学习·新媒体运营·音视频
踏着七彩祥云的小丑2 小时前
Go 学习第6天:结构体 + 切片 + range遍历
开发语言·学习·golang·go