RoboTwin 2.0:双臂操作机器人的可扩展合成数据生成和基准设计

概述

机器人的双臂操纵对于装配操作、工具使用和物品运送等复杂的现实世界任务至关重要。然而,在真实世界环境中进行大规模数据收集在时间和成本方面都很困难,而且所学操纵策略的通用性也很有限。为了解决这个问题,本研究提出了一个名为 "RoboTwin 2.0 "的大规模、高多样性数据生成和基准测试框架。

RoboTwin 2.0 采用闭环方法,利用多模态语言模型 (MLLM) 自动生成机器人操作程序,然后通过模拟对其进行修改和增强。此外,该系统还在背景、照明、物体摆放和指令文本等五个方面引入了强大的领域随机化功能,从而显著提高了真实环境中视觉、物理和语言的多样性和鲁棒性。

该系统支持 731 种物体类型和 50 个双臂任务,并预先收集了 100,000 多个专用轨迹数据。实验表明,代码生成的准确性、对不同机械臂的适应性以及在真实环境中的通用能力都得到了提高,而且零误差。

建议采用的方法

RoboTwin 2.0 是自动生成高质量双臂机器人操纵数据的可扩展框架。该方法主要由三部分组成:i) 多模态代码生成代理;ii) 域随机化;iii) 机械臂特定自适应模块。

首先,MLLM 根据以自然语言编写的任务指令自动生成初始代码。这些代码在模拟环境中各执行十次,由视觉语言模型(VLM)分析操作日志和故障原因,该模型与视觉和语言相对应。在此基础上,对代码进行反复修改和持续改进,直到成功率超过 50%。

然后,领域随机化引入了物体摆放、背景纹理、照明、桌子高度和指令的多样性。这样,模型就能适应各种视觉和物理环境。

此外,为了适应五种不同类型的机器人(如弗兰卡、UR5),设计还包括为每个物体准备多种抓取候选方案,并根据机器人的自由度自适应生成抓取行为。

实验

在这项研究中,RoboTwin 2.0 的有效性从几个方面得到了验证。首先,将 10 项不同任务中自动生成代码的成功率与传统方法(RoboTwin 1.0)进行了比较,结果表明,通过使用视觉和语言信息反馈,自动生成代码的成功率有了显著提高,最高达到 71.3%。

接下来,我们测试了有无领域随机化在鲁棒性方面的差异,发现在 RoboTwin 2.0 上训练的模型,即使在未见过的环境中,成功率也提高了 20% 以上。在现实环境中对四项任务进行的零点验证也显示,在未知背景和杂乱场景下,成功率提高了 20% 以上。

此外,使用 RoboTwin 2.0 训练的模型在 RoboTwin 基准的 "硬设置"(杂乱环境)中成功率最高,这清楚地表明了 RoboTwin 与其他方法之间的差异。这些结果表明,RoboTwin 2.0 是一个多功能、实用的数据生成平台,可显著提高在真实世界环境中的通用能力。

相关推荐
zzzzzz31014 天前
假如我是掘金管理员,我先给评论区装个'代码审查'系统
python·程序员·机器人
通信小呆呆14 天前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
生成论实验室15 天前
机器人:一个自主运动的系统
人工智能·算法·语言模型·机器人·自动驾驶·agi·安全架构
Dick50715 天前
ROS2 常用命令表
人工智能·学习·算法·机器人
沫儿笙15 天前
川崎机器人二保焊节气设备
人工智能·机器人
C++ 老炮儿的技术栈15 天前
Qt工控实战:自研机器人TCP长连接客户端(粘包处理+心跳保活+自动重连完整源码解析)
qt·tcp/ip·机器人
Deepoch15 天前
VLA多模态架构加持 采摘机器人实现精细化智能采收
人工智能·机器人·开发板·具身模型·deepoc·采摘
选与握15 天前
$\pi_{0.7}$: 一个具备涌现能力的可引导的通用机器人基础模型
机器人·vla·pi07
梦想的旅途215 天前
企业微信外部群自动化:一期交付应聚焦双向会话闭环
java·开发语言·机器人·自动化·maven·企业微信