T-Rex:使用MANUS手套推进触觉-反应灵巧操作

视觉推动了机器人学习的许多最新进展。然而，当涉及物理接触时，如插入卡片、转动钥匙或处理可变形物体，相机就不够用了。现有的VLA模型很难推理出在接触点会发生什么。人类通过触觉反馈不断调整他们的抓地力，而主要依靠视觉的机器人在很大程度上不能。

由加州大学伯克利分校、英伟达和斯坦福大学的研究人员开发的T-Rex通过将视觉、语言和触觉集成到一个统一的学习框架中来解决这一挑战。通过将大规模人类预训练与基于触觉的中期训练相结合，T-Rex使机器人能够对身体接触做出反应，而不是仅仅依赖视觉观察。在12个接触丰富的操作任务中进行评估，该框架在所有评估方法中实现了最高的平均成功率，超过最强基线30%以上。

为接触丰富的任务构建高质量的演示

T-Rex的核心是一个100小时的触觉同步遥操作数据集，涵盖200多个日常对象，22个运动原语，用于训练和评估12个现实世界操纵任务的策略。建立这种规模的数据集需要一个能够在每次演示中同步手部运动、触觉感知、机器人控制和视觉观察的远程操作平台。

T-Rex数据收集平台将双臂Dexmate Vega-1机器人与夏帕挥动着灵巧双手、多视角RGB相机和指尖触觉传感器。人类操作员穿着MANUS手套捕捉精确的手指运动和捕捉手腕姿势的VIVE追踪器。记录的运动被重新定向到机器人，实现自然的双手遥控操作，同时将视觉观察、触觉测量、机器人状态、机器人动作和自然语言指令同步到统一的多模态训练数据集中。

接触丰富的机器人学习依赖于忠实捕捉人类如何操纵物体的演示。在T-Rex数据收集工作流程中，MANUS手套提供手指级别的运动捕捉，用于将人手运动传递给机器人，支持收集高质量的演示，供下游机器人学习。

推进多模态机器人学习

T-Rex的研究表明，将大规模人类预训练与基于触觉的机器人中期训练相结合，可以提高数据效率和泛化能力。这种能力建立在多模态演示的基础上，能够准确捕捉人类运动、触觉交互和机器人执行之间的关系。

T-Rex展示了基础模型如何通过将触觉信息融入机器人学习来扩展到视觉之外。在T-Rex项目中，MANUS手套提供遥操作过程中使用的手部动作捕捉，支持由领先的机器人机构开发的研究工作流，以推进触觉反应灵巧操作。