MANUS：用于视觉、语言、行动模型创建的高保真第一人称数据采集设备

"RoboBrain-Dex：多源自我中心训练用于集成灵巧视觉-语言-行动模型"。

灵巧手遥操作目前为止仍然是机器人技术中最具挑战性的前沿领域之一。尽管视觉-语言-动作模型在通用机器人能力方面表现出很大潜力，但其面临一个关键瓶颈：灵巧手技能的大规模学习、动作注释数据稀缺。传统遥操作方法成本高且耗时，而现有的人类运动数据集则存在视角依赖、遮挡和捕获环境受限等问题，这限制了它们在机器人训练中的应用。

北京大学和北京人工智能学院的研究人员开发了RoboBrain-Dex，这是一个通过利用MANUS数据手套来克服这些数据收集挑战的灵巧手操作的突破性视觉-语言-动作模型。其工作展示了高保真手部追踪如何实现大规模、多源的自我中心数据集的创建，这些数据集将人类和机器人操作紧密联系在一起。

便携式、高保真大规模数据收集

RoboBrain-Dex 研究团队构建了Ego Atlas，一个综合的多源自我中心数据集，将人类和机器人操作数据统一在一个动作空间下。其数据收集基础设施的核心：MANUS Quantum Metagloves 可捕捉每只手的所有25个手关键点的精确3D位置。

与受限于捕捉体积和遮挡问题的基于相机或VR追踪系统不同，MANUS手套追踪系统实现了便携、随时随地的动作捕捉。结合VIVE追踪器进行6自由度手腕姿态追踪，该系统提供了手部定位，同时保持指尖级的精度。这种方法消除了视角依赖性，并能够在各种真实环境下收集数据，这对于构建用于稳定的VLA模型训练所需的规模和多样化的数据集至关重要。

从人类演示到机器人控制

由MANUS手套捕获的高保真运动数据在RoboBrain-Dex管道中起到了双重作用。对于人类演示，手套记录了自然的操纵行为，为学习机器人动作提供了丰富的先验知识。对于机器人远程操作，相同的手套追踪系统实现了精确控制：通过逆运动学将手腕姿势转换为机器人手臂配置，而指尖轨迹通过基于IK的重新目标映射到灵巧手关节空间。

这种无缝的人机翻译对于收集补充RoboBrain-Dex人类数据集的机器人演示数据至关重要。研究人员成功地将这种远程控制方法应用于配备Inspire 6-DoF灵巧手的Unitree G1人形机器人上，收集了高质量的多种操作任务演示数据。

推动该领域发展的成果

基于由MANUS手套支持的多源第一人称数据，RoboBrain-Dex在六个真实世界的灵巧操作任务中实现了超高的平均成功率。该模型在分布外场景中表现出色。

RoboBrain-Dex模型代表了一个重要的转变，通过数据采集设备MANUS的毫米级手部追踪精度和便携、可扩展的部署训练机器人灵巧手更加贴合真实人类操作。随着具身人工智能继续向人类水平的操纵能力发展，高保真第一人称数据采集设备仍然是弥合人类灵巧度与机器人智能之间差距的基础。