PI发布的Human to Robot数采工作——头戴iPhone且手戴两相机采集数据：混合数据中像“用机器人数据一样”用具身人类数据，而无需显式对齐

前言

为了推动中国具身的更快落地，今26年第一季度，我司将帮更多工厂落地umi这种数采模式，在工人们干活的同时把数据给采集了，以训练机器人自主干活

当然，VR或动捕采集，也能落地工厂的，适合单一任务重点攻克；而大批量且多任务，umi模式有优势

如果说，25年的人形运控的元年，26年，我愿称之为具身落地的元年

第一部分 VLA中「人类数据映射到机器人能力」的涌现

1.1 引言、相关工作、预备知识

1.1.1 引言

如原论文所述，通过观看他人执行任务的视频来学习，仍然是一个活跃的研究领域 [9,2,31,5,22,27]。利用这种类型数据的技术有望为通用机器人策略解锁大规模的人类数据

受语言模型的启发，最近的研究发现，能否利用某些数据来源在本质上与模型规模密切相关[47,49,48]。例如，较小模型无法有效利用多样化的指令微调数据集，而较大模型则会成为能够吸收多种数据并泛化到新任务的"通才"
这引出了一个问题：在没有显式对齐的情况下，从人类视频数据中学习技能的能力，是否也会随着规模的增加而涌现出来？

为检验这一假设，来自PI公司的研究者们提出了一种简单的联合训练方案，将人类视频视为一种额外的"形体"，并采用与机器人数据相同的训练目标
具体而言，作者使用三维手部轨迹来预测低层次的末端执行器轨迹，并使用密集的语言标注来预测高层次子任务，从而与机器人预训练阶段采用的目标保持一致

随后，作者在该人类数据与相关机器人数据的混合集合上进行联合微调，并在只出现在人类数据中的场景下进行评估。例如，其中一种场景是鸡蛋分类：机器人数据仅涉及将鸡蛋放入蛋盒中，而人类数据则详细说明了如何根据颜色差异，将鸡蛋分配到多个不同的蛋盒中

通过这一"配方"/方法，作者得出了核心结论：人到机器人的迁移是多样化 VLA 预训练所涌现出的性质，如下图图 1

当在任务、场景和具身形式等维度上扩展机器人数据的多样性时，预训练的 VLA在后训练阶段，对利用人类视频的能力变得日益强大

作者发现，随着预训练多样性的提升，人类与机器人数据之间的潜在表征会自然对齐。这表明，只要数据覆盖度足够高，尽管存在巨大的视觉和运动学领域分布偏移，模型仍会开始形成与具身形式无关的表征
且正如大型语言模型在多样化监督下会成为通才一样，多样化预训练的 VLA 模型也会成为能够从多种具身形式中学习的通才，且作者表明，当在足够多样化的数据上进行预训练时，机器人基础模型能够直接利用人类数据

1.1.2 相关工作

首先，对于来自人类的学习

由于具有良好的可扩展性，从人类视频中学习操作策略受到了广泛关注。多年来，研究者在如何更直接地将这类数据用于策略学习方面不断取得进展

早期工作利用人类视频数据来训练更强大的视觉编码器，从而提升下游策略学习的效果 [31,30,29]。这类方法利用诸如 Ego4D [19]等大规模人类数据集所蕴含的丰富视觉多样性来学习高质量视觉特征，但无法直接提升动作预测能力
为了解决这一问题，后续一些研究通过中间预测任务为动作构造代理表征，例如关键点跟踪[5,45]、潜在动作 [55]、奖励建模 [9] 和可供性预测 [3,2]

另一类方法则通过叠加机器人形象以及使用 AR/VR 来显式对齐人类与机器人的动作[15,34]。这些方法在更真实地捕捉人类动作方面更进一步，但它们都引入了人工设计的结构以实现迁移，从而限制了可被捕捉任务的通用性
与本工作并行，AR/VR 的进展使得能够以三维手部和头部跟踪的形式从人类身上提取显式动作 [17]。近期工作利用这一进展，在人类和机器人数据上训练统一策略，其唯一目标是进行未来动作预测------无论该动作来自人类手部还是机器人末端执行器 [22,36,59,27,28,54,37]

这些工作为直接利用大规模人类数据提供了一条前景可观的路径，但此类方法在小规模场景下通常较为脆弱
因此，它们往往依赖某种形式的对齐才能良好工作，无论这种对齐是运动学的、视觉的，或潜在空间。在本文要介绍的工作中，作者扩展了这一类方法，并且不执行任何显式的对齐步骤

其次，对于异构视觉-语言-动作模型

现代 VLA 被训练为在异构监督下的通用策略，将机器人遥操作数据、Web规模的视觉-语言数据以及语言标注结合到一个单一模型中 [13,60,24,8,50,57,4,40,35,42,51,7,20]

这些模型利用强大的视觉-语言骨干网络，从人类生成的图像和文本中获取广泛的语义理解能力，然后通过在大规模遥操作数据集上进行行为克隆，将这种理解落地到机器人的实际经验中[11,16,44,33,23,6,18,38,1,25,21]

虽然来自网页图像、视频和语言的监督进一步提升了开放世界的泛化能力，但这些数据缺乏显式动作信息，并且在视觉上相对于机器人的自中心观测是分布外的
近期多模态大模型（VLA）中的一个共同主题是跨形体（cross-embodiment）训练 [33,32,12,53,58]，即使用单一策略在统一的架构和动作表示下控制多种不同的机器人形体

这些多机器人 VLA 表明，技能可以在不同形体之间迁移，且通常除了共享观测空间和动作空间外，无需专门的对齐设计
这表明，基于异构多机器人进行预训练，可以产生内部表示，自然有利于在不同机器人形体之间进行迁移

对此，作者基于这一跨具身假设，将人类视为同一异构 VLA训练方案中的另一种具身形式。与人们可能在YouTube 上看到的非具身化人类视频相比，作者利用在 VLA 混合数据中具备显式手部运动和语言标注的具身人类视频

作者发现，在足够规模的预训练下，++所得的 VLA 会自然形成与具身形式无关的表示++，从而对齐人类和机器人的轨迹

最后，对于扩展替代数据采集策略的规模

尽管大多数 VLA在很大程度上依赖机器人遥操作数据驱动，但最近有工作在探索更具可扩展性的替代数据采集机制

一些研究使用由用户手持操作的便携式硬件来模拟遥操作[39,56]，例如，UMI[10] 是一种手持式平行夹爪，通过跟踪自身运动来用作示范数据
还有一些工作在这一设计基础上进行扩展，通过外骨骼和便携式动作捕捉等方式来采集灵巧手的数据[52,41,46]
尽管这些设备是在提升数据可扩展性方面颇具前景的选项，但它们终究会束缚操作者，使得难以以自然的方式完成任务

采集具身人类数据为解决这些局限性提供了一种很有前景的途径，它利用摄像机和计算机视觉以最小干扰记录三维手部运动。这种方法使得能够在不对人造成额外负担的情况下观察人类行为。因此，在本研究中，作者重点探讨如何利用具身人类数据的方法

1.1.3 预备知识

如原论文所说，VLA 继承了视觉-语言模型的架构和预训练权重，但被训练以产生连续的机器人控制

VLA 通常通过在示例数据集上进行行为克隆来训练，从而得到一个将观测和语言指令映射到未来动作轨迹的策略
动作可以被表示为离散的动作token[60, 26, 35] ，可以通过标准的下一token预测进行训练，或者表示为连续值，通常通过flow-matching 目标进行训练[8]
在本文介绍的这项工作中，作者遵循Driess 等人[14] 的做法，使用这两种动作表示来训练VLA 模型：
训练模型去预测离散化的FAST [35] 动作token，并引入一个小型动作专家网络
通过flow match-ing 目标来解码连续动作
关于模型架构和训练目标的更多细节，参见[20]

最近的VLA，如π0.5，通过在联合训练VLA 时加入子任务预测、目标检测和VQA 等附加目标，表现出更好的泛化能力

对于子任务预测，策略在给定视觉观测和高层语言指令的条件下预测一个子任务字符串

该语言会被反馈回模型中，用于对动作生成进行条件化

此，类似于思维链
子任务标签是通过使用对短、原子动作序列的语言描述，对示范数据进行密集标注获得的。在这项工作中，作者在人体数据上进行训练，包含两个目标：
1. 基于流的连续动作预测
2. 基于语言的子任务预测

1.2 人类数据采集流程

如原论文所述，作者的微调方案旨在像对待作者混合体中的其他机器人一样利用具身人类数据，而不进行任何显式对齐

该方法具有最大程度的通用性，依赖大模型从多源异构数据中摄取相关信息的能力，而不是依靠人工设计的跨域对齐启发式规则
首先收集、处理并标注人类视频数据
然后将其与机器人数据结合，用于微调预训练模型，该模型以图4中所示的 π0.5 模型为基础，详见此文《π0.5------推理加强的统一模型：先高层预训练离散化token自回归预测子任务、后低层执行子任务(实时去噪生成连续动作)》

微调目标对人类数据和机器人数据一视同仁，不采用任何显式的迁移学习方法或损失项

1.2.1 对于数据采集设备

作者设计的数据采集装置旨在在尽量不打扰人类的前提下，采集广泛的人类交互数据，从而具备良好的可扩展性

即作者为人工数据采集员配备了一台头戴式高清摄像机。鉴于近期机器人研究已经证明腕部安装摄像机在策略学习中的益处------它能够更细致地观察末端执行器与被操作物体之间的交互------作者还尝试为数据采集员配备腕部安装摄像机，以额外提供两路时间同步的相机流

且作者在原论文第 V 节中对这些额外相机的效果进行了消融实验

1.2.2 数据采集协议

作者的目的是以情节式机器人远程操控数据的形式收集人体数据，从而将迁移问题仅限定在人与机器人之间的视觉和运动学差异上

为此，作者要求操作员在佩戴数据采集设备的情况下，对每个任务进行多次重复演示
此外，作者要求操作员在演示过程中将双手保持在摄像机视野范围内，以提升跟踪质量

最终共收集了 bussing 任务 3 小时的数据、spice 任务 3 小时的数据、dresser 任务 3 小时的数据，以及 sort eggs 任务 5 小时的数据

1.2.3 数据处理与标注

给定一段记录人类交互的原始视频，作者使用视觉SLAM 重建头戴相机相对于固定世界坐标系的6 维运动
且还在头戴相机坐标系中重建双手的17 个3D 关键点的位置
最后，与作者训练混合数据中的机器人遥操作数据类似，使用基于文本的子任务对人类视频数据进行标注，用于描述每只手臂的动作

1.2.4 对于动作空间

作者的目标是在训练混合数据中，大致对齐人类和机器人的动作表示，以促进迁移
对于机器人的遥操作数据，动作表示有多种选择。两个常见的选项是将动作表示为机器人关节位置轨迹或末端执行器位姿轨迹
作者将考虑基于末端执行器的动作，因为为人类近似关节位置是困难的。具体来说，这些末端执行器动作被表示为长度为H 的动作片段，其中每个表示相对于当前观测到的状态6-DoF 位姿的6-DoF 位姿

机器人数据的总动作空间是6DoF 左臂末端执行器轨迹+ 夹爪、6 DoF 右臂末端执行器轨迹+ 夹爪，以及2 维底盘动作的拼接 ，从而得到总的动作片段
为了计算人类视频中的对应动作，作者定义一个" 末端执行器" 位姿，其覆盖相对于头部坐标系的每只手的手掌、中指和无名指的3D 关键点（图6）

然后，作者与机器人末端执行器相同的方式，从当前的6-DoF 状态计算相对变换作为末端执行器动作
类似地，作者通过将人类视频中的底盘相机位姿投影到该片段第一个时间步底盘相机位姿的坐标系下，来近似相对的机器人底盘动作

另，作者宣称不显式地为人类视频近似" 夹爪动作"，因为估计在物体交互过程中的人手的张开程度是具有挑战性的，而是仅依赖于从机器人数据中学习夹爪动作
因此，作者的人体动作具有2 × 6 + 6 = 18维度

1.2.5 训练目标

作者用于执行困难长时程任务的最佳方案同时利用了高层子任务预测和低层动作预测

具体而言，作者在人工数据上构建这两种预测任务

对于高层子任务预测，在子任务语言token上训练下一个token预测
对于低层动作预测，通过对离散FAST token进行下一个token预测以及对连续动作施加流匹配损失来监督动作片段预测

1.2.6 训练混合

在微调阶段，构造一种既能保留模型原有能力，又能通过引入来自人类数据的新概念以提升泛化能力的训练混合非常重要
作者的混合策略用一个简单的配方体现这一点：作者以50-50 的比例，将用于泛化任务的人类数据与最近邻的机器人任务进行联合训练
比如，作者使用这种混合来微调π0.5，这是一个在零样本泛化上表现出色的强大VLA，并在此基础上进一步提升其能力
为简便起见，作者将把自中心数据整合进π0.5 后的组合模型称为π0.5+ego

// 待更