RoboTwin 2.0：双臂操作机器人的可扩展合成数据生成和基准设计

机器人的双臂操纵对于装配操作、工具使用和物品运送等复杂的现实世界任务至关重要。然而，在真实世界环境中进行大规模数据收集在时间和成本方面都很困难，而且所学操纵策略的通用性也很有限。为了解决这个问题，本研究提出了一个名为 "RoboTwin 2.0 "的大规模、高多样性数据生成和基准测试框架。

RoboTwin 2.0 采用闭环方法，利用多模态语言模型 (MLLM) 自动生成机器人操作程序，然后通过模拟对其进行修改和增强。此外，该系统还在背景、照明、物体摆放和指令文本等五个方面引入了强大的领域随机化功能，从而显著提高了真实环境中视觉、物理和语言的多样性和鲁棒性。

该系统支持 731 种物体类型和 50 个双臂任务，并预先收集了 100,000 多个专用轨迹数据。实验表明，代码生成的准确性、对不同机械臂的适应性以及在真实环境中的通用能力都得到了提高，而且零误差。

RoboTwin 2.0 是自动生成高质量双臂机器人操纵数据的可扩展框架。该方法主要由三部分组成：i) 多模态代码生成代理；ii) 域随机化；iii) 机械臂特定自适应模块。

首先，MLLM 根据以自然语言编写的任务指令自动生成初始代码。这些代码在模拟环境中各执行十次，由视觉语言模型（VLM）分析操作日志和故障原因，该模型与视觉和语言相对应。在此基础上，对代码进行反复修改和持续改进，直到成功率超过 50%。

然后，领域随机化引入了物体摆放、背景纹理、照明、桌子高度和指令的多样性。这样，模型就能适应各种视觉和物理环境。

此外，为了适应五种不同类型的机器人（如弗兰卡、UR5），设计还包括为每个物体准备多种抓取候选方案，并根据机器人的自由度自适应生成抓取行为。

在这项研究中，RoboTwin 2.0 的有效性从几个方面得到了验证。首先，将 10 项不同任务中自动生成代码的成功率与传统方法（RoboTwin 1.0）进行了比较，结果表明，通过使用视觉和语言信息反馈，自动生成代码的成功率有了显著提高，最高达到 71.3%。

接下来，我们测试了有无领域随机化在鲁棒性方面的差异，发现在 RoboTwin 2.0 上训练的模型，即使在未见过的环境中，成功率也提高了 20% 以上。在现实环境中对四项任务进行的零点验证也显示，在未知背景和杂乱场景下，成功率提高了 20% 以上。

此外，使用 RoboTwin 2.0 训练的模型在 RoboTwin 基准的 "硬设置"（杂乱环境）中成功率最高，这清楚地表明了 RoboTwin 与其他方法之间的差异。这些结果表明，RoboTwin 2.0 是一个多功能、实用的数据生成平台，可显著提高在真实世界环境中的通用能力。