人形机器人动作策略 ∼ 人类动作策略

25年3月来自UCSD、CMU、西雅图 UW、MIT 和 Apple 公司的论文"Humanoid Policy ∼ Human Policy"。

利用多样化数据训练人形机器人的操作策略，可以增强其在跨任务和平台的鲁棒性和泛化能力。然而，仅从机器人演示中学习需要耗费大量的人力，需要昂贵的远程数据收集，而这些数据难以扩展。本文研究一种更具可扩展性的数据源------以自我为中心的人类演示，将其用作机器人学习的跨具身训练数据。从数据和建模的角度弥合人形机器人与人类之间的就是差距。其收集一个以自我为中心的、面向任务的数据集 (PH^2D)，该数据集与人形机器人的操作演示直接对齐。然后，训练一种人形机器人行为策略，我们称之为人类动作 Transformer (HAT)。HAT 的状态-动作空间对于人类和人形机器人是统一的，并且可以可微分地重定向到机器人动作。通过与小规模机器人数据联合训练，HAT 可以直接将人形机器人和人类建模为不同的具身，而无需额外的监督。人类数据可以显著提高 HAT 的数据收集效率，从而提升 HAT 的泛化能力和鲁棒性。

近年来，从真实机器人演示中学习推动机器人操控领域的巨大进步 $34, 40, 6, 15$ 。实现这一进步的关键在于软硬件协同设计，从而通过遥操作 $65, 20, 11, 58, 9, 25$ 和直接控制机器人末端执行器 $14, 5, 65, 20, 23, 11$ 来扩大数据收集规模。与收集单个机器人的数据不同，人们致力于整合不同的机器人数据，并跨具身训练基础策略 $14, 41, 40, 34, 6, 15$ ，这已被证明可以提高跨具身和跨任务的泛化能力。然而，收集结构化的真实机器人数据，成本高昂且耗时。距离构建一个像计算机视觉 $46$ 和自然语言处理 $42$ 那样鲁棒且可泛化的模型，还很远。

如果更深入地研究人形机器人的遥操作，它涉及机器人使用几何变换或重定向来模仿人类动作，以控制机器人的关节和末端执行器。从这个角度来看，采取以人为中心的表征来建模机器人，机器人动作只是人类动作的一种变换。如果能够准确地捕捉人类的末端执行器和头部姿势，那么以自我为中心的人类演示，将成为更具可扩展性的训练数据来源，因为可以在任何地点高效地收集这些数据，而无需机器人。

机器人操作的模仿学习。近年来，利用直接从多个目标机器人实例收集的数据来学习机器人策略，已展现出深刻的鲁棒性和灵活性 $66, 40, 52, 34, 10, 45, 9, 35$ 。随着数据收集技术的进步 $1, 9, 11, 58$ ，用于模仿学习的数据规模也大幅增长，人类操作员可以高效地收集大量高质量、面向任务的数据。尽管取得这些进展，但由于缺乏互联网规模的训练数据，实现开放世界泛化仍然是一项重大挑战。

从人类视频中学习。由于海量的人类数据，从人类视频中学习策略一直是计算机视觉和机器人技术领域的一个长期课题。现有的研究大致可以分为两类：对齐观察或动作。

对齐观察: 虽然遥操作实际的机器人平台，可以非常灵活地学习策略，但要实现跨不同任务、环境和平台的更高水平的泛化，还有很长的路要走。与计算机视觉 $46$ 和自然语言处理 $42$ 等领域受益于互联网规模的数据不同，现实世界中的机器人数据收集受到更多限制。各种方法都尝试使用互联网规模的真人视频来训练机器人策略 $7, 30, 31, 39, 48, 59$ 。由于以机器人为中心的视角和互联网视频之间存在各种差异（例如监督和视点），大多数现有工作 $37, 3$ 使用模块化方法，并以中间表征作为训练的替代。最具代表性的，是用于目标交互的 affordance $37, 3$ 、目标关键点预测 $4, 53, 32, 13, 54$ 或其他类型的目标表征 $44, 38, 36$ 。
对齐动作：除了观察对齐之外，由于具身、驱动和控制动力学方面的差异，将人类演示迁移到机器人平台会带来额外的挑战。需要对人类和机器人动作进行特定的对齐，以克服这些差异。现有的方法包括：在自我中心视图中进行掩码 $28$ 、对齐运动轨迹或流程 $33, 47$ 、以目标为中心的动作 $69, 26$ 或使用专用硬件进行手势追踪 $51$ 。

然而，许多现有论文专注于在单一任务中模仿人类，而忽略将人类数据直接应用于更大规模跨具身学习的潜力。

跨具身学习。跨具身预训练已被证明能够提高在不同具身的适应性和泛化能力 $27, 8, 57, 56, 16, 18, 21, 49, 55, 60, 62, 63, 64$ 。当使用真人视频时，引入中间表征容易导致复合错误。近期研究使用跨具身机器人数据的端到端方法 $40, 52, 34, 6$ ，以减少此类复合感知错误。值得注意的是，这些研究发现，这种端到端学习能够实现预期行为，例如重试 $6$ 。其他一些研究 $2, 32$ 在训练真人演示和测试时机器人部署之间强制视点约束，以允许基于真人数据进行学习，但这会牺牲数据收集过程的可扩展性。

类似工作。一些同期的研究 $51, 28, 50$ 也尝试使用以自我为中心的人类演示进行端到端的跨具身策略学习。DexCap $51$ 使用手套追踪3D手势，并通过胸前安装的RGB-D摄像头捕捉以自我为中心的人类视频。然而，DexCap依赖于3D输入，而一些近期的研究 $6, 34$ 已经展示2D视觉输入的可扩展性。与本文研究最相关的是EgoMimic $28$ ，它同样提出使用可穿戴设备 $17$ 收集带有2D视觉输入的数据。然而，EgoMimic需要严格的视觉传感器对齐和诸如视觉掩码之类的启发式设计。这种在训练和测试阶段对视觉模型的依赖，会导致与模块化方法类似的复合失败。此外，PH^2D 在数据集规模和目标多样性方面也更胜一筹。其策略可以部署在真实机器人上，而无需对视觉传感器和启发式算法有严格的要求，这为可扩展的数据收集铺平道路。

本文针对机器人操作进行跨-人类和人形机器人的具身训练。核心见解是通过直接模仿人类行为来建模双手人形机器人行为，而无需使用 affordance 等学习替代 $37, 3$ 。为了实现这一目标，首先收集一个以自我为中心、面向任务、物理人形机器人-人类的数据集，称为 PH^2D。然后，训练人类-人形机器人动作 Transformer (HAT)，它可以在统一的以人为中心的状态动作表示空间中预测未来的手指轨迹。如图所示：

为了收集更多数据来训练可泛化的机器人策略，近期研究探索跨具身学习，使策略能够泛化至不同的物理形态 $6, 34, 15, 40, 29, 41$ 。本文提出以自我为中心的人类操作演示作为可扩展的跨具身训练数据来源。该方法可使消费级 VR 设备轻松扩展人类数据收集，从而构建一个面向任务的自我中心人类演示数据集。其实有各种处理域差距的技术，以便协调人类数据和机器人数据，从而学习人形机器人的操作策略。

PH^2D：面向任务的物理人形数据

虽然已有研究收集以自我为中心的人类视频 $28, 12, 22, 51$ ，但它们要么 (1) 主要提供的是非任务导向技能的演示，无法为模仿学习监督提供世界坐标系下的 3D 头部和手部姿势估计 $22, 12$ ，要么 (2) 需要专门的硬件或机器人配置 $51, 28$ 。

为了解决这些问题，提出 PH^2D。PH2D 通过以下方式解决这两个问题：(1) 收集与机器人执行直接相关的面向任务的人类演示；(2) 采用精心设计的 VR 设备 SDK（如图所示）来提供监督；(3) 实现任务和摄像头传感器的多样化，并减少全身运动，以缩小视觉和行为方面的域差距。

a) 适配低成本商用设备：随着姿态估计 $68$ 和系统工程的发展，现代移动设备能够提供精确的基于设备世界坐标系的 3D 头部姿态追踪和 3D 手部关键点追踪 $9$ ，这已被证明足够稳定，可以实时遥控机器人 $9, 23$ 。其设计软硬件，支持跨不同设备便捷的数据收集：

• Apple Vision Pro + 内置摄像头。开发一款Vision OS App，它可以访问左下方摄像头进行视觉观察，并使用Apple ARKit 获取 3D 头部和手部姿态。

• Meta Quest 3 / Apple Vision Pro + ZED摄像头。开发一款基于 OpenTelevision $9$ 的网页应用程序，用于收集3D头部和手部姿态。还设计一个3D打印支架，用于将ZED Mini Stereo 摄像头安装在这些设备上。这种配置成本低廉（<700美元），并且通过立体视觉摄像头实现更多功能。

不同的摄像头旨在为数据收集提供更丰富的视觉多样性。

b) 数据收集流程：通过要求人类操作员佩戴 VR 设备执行与机器人执行重叠的任务（例如，抓取和倾倒）来收集以任务为导向的、以自我为中心的人类演示。对于每个演示，都提供语言指令（例如，用右手抓住一罐零度可乐），并按最接近的时间戳同步本体感受输入和视觉输入。

动作域差距。人类动作和遥控机器人动作表现出两个不同的特点：(1) 人类操作通常涉及非自主的全身运动；(2) 人类比机器人更灵巧，并且完成任务的时间明显快于机器人。通过要求人类数据收集者保持直立姿势来弥补第一个差距。此外，将物体放置在靠近人类的位置，使其在无需全身运动的情况下位于人类手臂的工作空间内，这与无需全身运动的商用人形机器人工作空间类似。

HAT：人类动作 Transformer

HAT 通过对人类进行建模来学习跨具身机器人策略。通过重定向，将双手人形机器人和人类视为不同的机器人具身，可以提高 HAT 的泛化能力和鲁棒性。

更具体地说，令 D_robot = {(S_i, A_i)} 为使用遥操作从真实双手人形机器人 $9$ 收集的数据集，其中 S_i 为第 i 个演示的状态（包括本体感受和视觉观察），A_i 为动作。收集的 PH^2D 数据集 D_human = {(S ̃_i, A ̃_i)} 用于增强训练过程。需要注意的是，假设 M ≫ N 是合理的，因为收集以自我为中心的人类视频，比遥操作更有效率。

目标是设计一个策略 π: S → A，该策略预测给定当前机器人观测 s_t 在时间 t 的未来机器人动作，其中未来动作a_t+1 通常是一组可分步执行的动作（略有符号滥用）。本文使用基于 Action Chunk Transformer （ACT） $65$ 的 HAT 作为策略。修改原始实现，用冻结的 DinoV2 $43$ 主干网络替换 ResNet-18 $24$ ，并在中间层添加视觉适配器。模型概览如图所示。通过消融实验，讨论 HAT 的关键设计选择。

统一的状态-动作空间。双手机器人和人类都具有两个末端执行器。在本文案例中，机器人还配备一个可旋转的2 DoF 驱动颈部，类似于人类进行操作时的自主全身运动。因此，为双手机器人和人类设计一个统一的状态-动作空间（即 (S, A) ≡ (S ̃, A ̃)）。更具体地说，用于预测 HAT 的动作空间是一个 54 维向量。头部、左腕和右腕的旋转，表示为 6 维旋转 $67$ ；左右腕的平移，表示为 x/y/z 向量。在本研究中，由于将策略部署在一个拥有五指灵巧手的机器人上（如图所示），因此机器人灵巧手的 10 个指尖与普通人手之间存在双射映射（bijective mapping），这些指尖表示为用于回归的 3D x/y/z 关键点。需要注意的是，单射映射（injective mapping）也是可能的（例如，将拇指与其他手指之间的距离映射到平行夹持器的距离）。

视觉域差距。在人类/人形机器人数据协同训练中，存在两种类型的域差距：摄像头传感器和末端执行器外观。由于人类数据收集过程包含与机器人部署不同的摄像头，这会导致诸如色调（tone）之类的摄像头域差距。此外，人类和人形机器人末端执行器的外观也不同。然而，如果数据足够庞大且多样化，并非必须应用启发式策略（例如添加视觉伪影 $28$ ）或生成式方法 $61$ 来训练人机策略------在这种情况下，诸如颜色抖动和高斯模糊之类的基本图像增强，可以有效地正则化视觉输入。

动作域差距。为了缓解人类与人形机器人之间巨大的速度差异，在训练过程中插入人类数据的平移和旋转（有效地"减慢"动作）。减慢因子 α_slow 是通过对人类和人形机器人的平均任务完成时间进行归一化获得的，该时间经验分布在 4 左右。为了保持一致性，在所有任务中均使用 α_slow = 4。

由于状态空间的差异，在训练期间随机丢弃本体感觉读数，以避免对低维状态输入产生不必要的依赖。

训练。最终策略表示为 π : f_θ(·) → A，适用于人类和机器人策略。本体感受编码器 θ 和 Transformer 主干的可训练参数，在训练过程中进行联合优化。

硬件平台：在配备一对 6 自由度 Inspire 灵巧手的 Unitree H1 双手人形机器人上进行实验。专注于操控，不驱动机器人的下半身。相反，引入一个类似于 $9$ 中设计的 2 自由度驱动颈部，使机器人能够像人类一样在视觉上聚焦于其操控的物体。这种配置总共产生了 28 个自由度。机器人设置如上图和下图所示。需要注意的是，仅依靠头部摄像头（不使用腕部摄像头）来研究纯粹基于自我中心视觉的操控能力。

实现细节：采用 OpenTV $9$ 的实现来实现策略架构。具体来说，用冻结的DinoV2 $43$ ViT-S替换可训练的 ImageNet 预训练的 ResNet-18主干网络，以提高其对光照和纹理变化的鲁棒性。除非另有说明，否则使用不同的均值和标准差来规范化状态-动作空间。实现两种变型：

• ACT：使用上述架构的基准实现，仅使用机器人数据进行训练。机器人状态以关节位置表示。

• HAT：与 ACT 相同的架构，但状态编码器在统一的状态-动作空间中运行。除非另有说明，HAT 均使用机器人和人类数据共同训练。

实验方案：收集不同目标集中的机器人和人类演示。由于人类演示更容易收集，因此人类演示中的设置通常更加多样化，包括背景、物体类型、物体位置以及人类相对于桌子的相对位置。实验四种不同的灵巧操作任务，并研究分布内和分布外的设置。分布内 (I.D.) 设置测试学习的技能，其背景和物体排列与真实机器人数据中呈现的训练演示大致相似。在人类-分布 (H.D.) 设置中，评估人类演示中包含的现场设置，但不包括机器人演示。在分布外 (O.O.D.) 设置中，通过引入任何训练演示中均未出现的新设置，测试泛化能力和鲁棒性。上图可视化不同的操作任务以及如何为每个任务定义分布外（OOD）的设置。

基于上述设置，旨在回答以下重要研究问题：

• 使用人类数据进行协同训练能否提高身份识别性能？

• 使用人类数据进行协同训练能否提高 O.O.D. 的泛化能力？

• 与远程操作 $9$ 相比，人类演示收集的效率如何？

• 每种设计选择的贡献程度如何？