详解RoboCOIN:面向集成化操作的开放式双臂机器人数据集

论文:RoboCOIN: An Open-Sourced Bimanual RoboticData COllection for INtegrated Manipulation

链接:https://flagopen.github.io/RoboCOIN/


1. 背景介绍

在具身智能迈向真实世界应用的关键阶段,大规模、高质量、多平台兼容的机器人操作数据已成为制约技术突破的核心瓶颈:

  • 双臂操作作为最贴近人类行为的"刚需"形态,正成为行业主流趋势,但受限于高昂的采集成本与复杂的标注难度,相关数据极度稀缺;

    现有数据集普遍存在真实场景覆盖不足、任务单一、过度实验室化等问题,且大多仅适配特定或有限种类的机器人本体与构型,缺乏跨平台、跨本体的通用性。

北京智源人工智能研究院牵头,联合蚂蚁天玑实验室、银河通用、乐聚、软通天擎、松灵、星海图、智平方、睿尔曼 等产业先锋,以及清华大学、北京大学、斯坦福、伯克利、剑桥 等海内外顶尖学术力量,共同打造并发布了RoboCOIN(Bimanual Robotic Data COllection for INtegrated Manipulation) ------全球"本体数最多、标注最精细、使用最便捷"的高质量双臂机器人真机数据集

论文的核心贡献如下:

  • 介绍了RoboCOIN,这是一个大规模、多实施例的双手数据集,包含来自15个不同机器人平台的421个任务的180000多个演示。

  • 分层能力金字塔。我们提出了一种具有轨迹级、分段级和帧级描述的分层能力金字塔,实现了从高级全局概念到低级控制的多分辨率学习。

  • 集成数据处理框架。我们开发了一个名为CoRobot的统一数据处理框架,包括基于RTML的评估、自动注释工具链以及统一的多实施例数据集管理和机器人部署平台。

2. 数据集

RoboCOIN数据集为双手操作提供了一个多实施例基准,集成了15个机器人平台、180K+演示、421个任务和16个场景。

同时,RoboCOIN引入了多层级注释的分层能力金字塔,实现了从高层次概念到低层次控制的结构化学习

2.1 数据采集和存储

RoboCOIN框架整合了15种不同类型的机器人平台,实现全方位数据采集,涵盖双臂协作机器人、半人形机器人和全人形机器人三种配置。下图展示了三种典型平台:双臂协作机器人(如Agilex Cobot Magic)、半人形机器人(如Realman RMC- AIDA -L)和全人形机器人(如Unitree G1edu-u3)。该框架采用远程操控技术确保数据采集质量。机器人平台的完整列表详见表1。

该平台配备了一套全面的传感器系统。这些传感器可从多个摄像头视角(如头部、腕部、第三人称视角、胸部和背部)捕获多模态数据流(RGB和深度),同时记录机器人的运动学状态(包括关节角度、末端执行器姿态及夹爪关节运动)。关键环境参数(如平台高度和工作空间)也会记录。


2.2 数据集统计和分析

  • 多本体、末端执行器:涵盖 15款异构机器人平台
  • 真实场景、丰富任务 :覆盖 16类现实环境 (家庭、办公室、工厂、餐厅、超市等),分为住宅、商业和工作环境 ,包含 432种物体 (刚性、铰接、可变形)和 36种双臂操作技能(低协调度任务,双臂主要按顺序操作;高协调度任务,表现为部分或完全并行的臂部运动),构建了从简单到复杂的渐进式任务体系。
  • 数据规模大、质量高 :通过人类遥操作 采集超过18万条真实轨迹,每条均配备多视角图像、关节状态、末端位姿,并严格对齐时间戳,统一坐标系和量纲,确保数据物理一致性与语义完整性。
  • 首创"能力金字塔":三层结构化标注,赋能多粒度学习
    RoboCOIN 首次提出 "层级能力金字塔"(Hierarchical Capability Pyramid) ,从而实现从高层次概念理解到低层次控制的多分辨率学习
    轨迹级(Trajectory-level) :定义全局概念与任务目标,包含场景描述(环境设置、物体摆放)及详细属性(如颜色、形状、材质、纹理和尺寸),支持全局规划;
    片段级(Segment-level) :将任务分解为可执行子任务(如"右手抓篮子""左手放桃子"),每个分段对应特定视频帧,并包含分步操作说明。标注还明确标注异常情况(如抓取失败),以支持鲁棒的错误处理机制
    帧级(Frame-level):逐帧标注运动状态(方向、速度、加速度、夹爪或灵巧手的开合状态),支撑精准闭环控制。

所有注释均经过时间同步,形成一个连贯的数据结构。这种多分辨率标注体系,不仅显著提升了数据的信息密度和教学价值,还使模型能够同时学习"做什么""怎么做"和"如何做准",从而增强泛化能力、训练效率与可解释性。

3. 数据处理框架

为高效构建RoboCOIN数据集,我们开发了CoRobot集成数据处理框架。

链接:https://github.com/FlagOpen/CoRobot

  1. RTML(Robot Trajectory Markup Language):首创机器人轨迹标记语言,通过 YAML 定义运动约束(速度、加速度、工作空间等),自动评估并过滤低质量轨迹,显著提升数据可靠性。

    其约束轨迹主要从两个维度实现:(a) 全局约束------适用于整个轨迹,定义运动特征包括工作空间边界、速度限制、加速度限制和持续时间限制;(b) 局部约束------将轨迹划分为连续阶段(如接近、抓取、放置),为每个阶段定义覆盖参数和方向容差

  2. 自动化标注工具链:用于生成丰富且分层的任务描述。工具链集成大型语言模型、规则工具和人工标注。

    轨迹级标注:首先通过物体检测工具获取场景中的物体位置,再利用大型语言模型将其转换为自然语言。

    片段级标注:基于规则工具自动识别标记重要行为变化的关键帧,之后再进行人工优化。

    帧级标注:采用基于规则的工具,通过滑动窗口分析状态序列来量化帧间运动,再利用预设阈值(例如将微小运动归类为"静止")将其转换为文本标签

  3. 统一本体管理平台:基于 LeRobot 扩展,支持统一机器人控制、细粒度类型扩展(支持段级和帧级文本注释)、原子化存储。调用数据集使用工具链只需敲入一行代码"pip install robocoin",真正做到"开箱即用"。

4. 实验

模型架构

  • VLA基线。

  • 分层注释集成(HAI):通过向标准VLA模型添加层次化信息来提升机器人策略学习能力。

    训练:使用完整注释集,包括轨迹级、片段级和帧级。如下图所示,提供分层注释作为VLA输入,提供了额外的信息。

    推理:HAI通过人工指令整合层次化注释,并利用阶段变化检测与状态历史摘要自动生成实时上下文

评估的VLA模型

  • π0 :基于专有 π0 数据集训练的流匹配VLA模型,结合视觉语言模型进行感知与推理,并采用动作专家网络处理连续运动指令。

  • GN00TN1.5。一个基于扩散训练的VLA模型,采用 Galaxea Open-World 数据集训练,其分层架构将高层规划与低层技能执行分离。

在 Realman 与 Unitree 真机平台上,对 π0、GR00T-N1.5 等先进视觉语言动作(VLA)模型的实验表明:

  • 引入 RoboCOIN 的层级标注后,简单任务("将毛巾放入篮子")成功率从80%提升至90% ,复杂任务(如"将桃子放入抽屉并关闭")成功率从 20% 提升至 70%
  • 使用 RTML 过滤后的高质量数据训练,GR00T-Mine模型平均成功率提升 23% ,验证了"质量优于数量 "的数据范式
    GR00T-Raw:在原始数据集上训练且未进行 RTML 过滤的模型。
    GR00T-Coarse:仅通过全局 RTML 约束过滤数据训练的模型。
    GR00T-Fine:同时采用全局和约束过滤数据训练的模型。
    GR00T-Mine:在 RTML 过滤数据基础上,结合其他任务中挖掘的高质量轨迹片段训练的模型。

RTML 有效排除了极端情况,确保了操作的可靠性,从而增强了模型的鲁棒性

5. 总结

局限:

  • 标注工具包旨在降低成本,但仍可能引入错误并需要人工验证
  • RTML 框架依赖经验设定的阈值,这些阈值可能无法适用于所有场景。

结论:

  • 推出RoboCOIN:一个整合15个机器人平台、超过18万次演示、421项任务及多种场景的大型多体数据集。该数据集采用分层能力金字塔架构,包含轨迹级、段级和帧级注释。

  • 开发了CoRobot集成数据处理框架,包含机器人轨迹标记语言(RTML)实现自动化轨迹质量评估、半自动注释工具链,以及支持统一多体控制与数据管理的即用型机器人平台

相关推荐
Robert--cao3 小时前
ubuntu22.04使用Isaac Sim 4.5.1与Isaac Lab 2.1.0完成BeyondMimic 环境
人工智能·算法·机器人
库库林_沙琪马3 小时前
SpringBoot对接飞书机器人
spring boot·机器人·飞书
出门吃三碗饭3 小时前
机器人仿真: Isaac Lab 环境配置完整指南
机器人
星期五不见面3 小时前
机器人学习!(二)ROS2-环境配置(6)2026/01/19
学习·机器人
Mr.Winter`3 小时前
轨迹优化 | 微分动态规划DDP与迭代线性二次型调节器iLQR理论推导
人工智能·算法·机器人·自动驾驶·动态规划·ros·具身智能
码农三叔4 小时前
(2-2)人形机器人的总体架构与系统工程:系统工程方法论
架构·机器人·人形机器人
藦卡机器人20 小时前
安徽码垛机器人品牌差异化对比
机器人
码农三叔21 小时前
(1-3)人形机器人的发展历史、趋势与应用场景:人形机器人关键技术体系总览
人工智能·机器人
码农三叔21 小时前
(1-2)人形机器人的发展历史、趋势与应用场景:未来趋势与行业需求
人工智能·microsoft·机器人