VLA中人类数据迁移到机器人后的涌现 -- physical intelligence -- 2025.12.16

0. 前言

pi公司新作,从人类视频获取数据,训练机器人产生新的能力。

1. 背景与介绍

1.1 提出问题

视觉-语言-动作(VLA)模型能够实现广泛的开放世界泛化,但需要大规模且多样化的数据集。一个吸引人的想法是:其中一部分数据是否可以来自人类视频 ------这些视频覆盖多样的真实场景且易于获取

人类知识为在机器人中灌输物理智能提供了基础。这可以以多种形式体现:从通过视觉-语言模型用人类生成的文本与图像为机器人策略提供初始(bootstrapping),到通过机器人远程操作(teleoperation)模仿人类生成的动作。尽管这些技术能间接把人类经验灌入模型 ,但直接从人类经验中学习 的"正确配方"仍是活跃的研究领域,例如通过观看某人执行任务的视频来学习

利用这类数据的方法有望为通用型机器人策略解锁大规模的人类数据资源 。受语言模型的启发,近期研究发现利用某些数据源的能力与模型规模 有内在关联。例如,较小的模型 无法有效利用多样的指令微调 (instruction tuning)数据,而较大的模型 会成为能吸收多样数据 并对新任务泛化的通用模型(generalists)。

于是作者提出疑问:在没有显式对齐 (no explicit alignment)的情况下,从人类视频数据学习技能是否会随着规模而涌现?为检验该假设,作者提出一个简单的联合训练(co-training)方案,把人类视频 视为一种额外的 embodiment ,并对其使用与机器人数据相同的训练目标

1.2 解决问题

具体地,作者用 3D 手部轨迹预测低级的末端执行器(end effector)轨迹,并用密集的语言注释预测高级的子任务(sub-tasks),以镜像机器人预训练期间使用的目标。

然而,仅靠人类视频 训练 VLA 是困难的;把人类行为映射到机器人行为 需要人工设计映射 (manual engineering),这是一个重大的研究挑战。受大型语言模型(LLM)发展的启发------在规模增大时从多样化监督中学习的能力会"涌现"------作者提出问题:当把人类视频数据并入训练 时,VLA 是否也会出现类似的涌现现象

随后作者在混合了这些人类数据与相关机器人数据 的集合上进行联合微调(co-finetune),并在仅出现在人类数据中的情境中 进行评估。例如,一个场景是分拣鸡蛋 :机器人数据包含把鸡蛋放进纸盒 的动作,而人类数据则说明了如何按颜色 将不同颜色的鸡蛋在多个纸盒间分类

采用该方案,作者得到的核心发现是:人类到机器人迁移是多样化 VLA 预训练的一个涌现性质(见图 1)。随着作者扩大机器人数据的多样性------涵盖更多任务、场景和体现形式------预训练的 VLA 在后训练(post-training)阶段越来越能有效利用人类视频
作者在四个泛化基准上量化了这一效应,这些基准从不同迁移维度进行探测,包括未见过的公寓、全新的物体类别以及新的任务语义。完整方案利用人类视频数据 来实现机器人数据中从未展示过的能力,例如搬运(buss)未见物体、整理未见的房间,以及执行具有新语义结构的任务。

这些发现可能会引发疑问:为什么多样化的预训练对迁移如此重要?

分析表明,这种涌现能力的来源在于:多样化的预训练 会产生对机体形式 (embodiment)无关 的表示(embodiment-agnostic representations),能够同时表征人类和机器人数据 。随着预训练多样性的增加人类数据与机器人数据之间的潜在表示 (latent representations)会自然而然地对齐

这表明在数据覆盖充足 的情况下,模型会开始形成对 embodiment 无关的表示,尽管存在巨大的视觉与运动学域差异。就像大型语言模型会成为能从多样监督中学习的通用模型一样,多样化的 VLA 也会成为能从多样体现中学习的通用模型。在对机器人进行足够多样化预训练的情况下 ,把人类数据并入训练后,在那些只在 human 数据中出现机器人未见过 的条件下,其泛化 表现显著提升接近两倍

为检验该方案的有效性,作者进行了消融实验:考察各训练目标的重要性、腕部摄像头(wrist cameras)的重要性,并比较了人类与机器人数据的相对价值。作者认为这项研究为人类数据在训练最先进 VLA 中的潜在作用提供了新视角。

与其开发专门的算法来利用人类数据,不如把问题放在跨体现迁移(cross-embodiment transfer)的框架中来思考------在多样化预训练的放大作用下,人类数据的效用会被提升。

2. 相关工作

2.1 向人类学习

从人类视频学习操控(manipulation)因其潜在的可扩展性而受到广泛关注。多年来,人们在更直接地利用这些数据进行策略学习方面取得了进展。

该领域的早期工作利用人类视频数据来训练更强的视觉编码器 ,从而改善后续的策略学习。这些方法利用像 Ego4D 这样的大规模人类数据集 的视觉多样性来训练丰富的视觉特征,但无法直接提升动作预测能力

为了解决这个问题,一些工作通过中间预测任务开发了动作的代理(proxies),例如关键点跟踪(keypoint tracking)、潜在动作(latent actions)、奖励建模(reward modeling)和 affordance 预测等。另一些方法则使用叠加机器人模型和 AR/VR 技术来显式对齐人类与机器人动作。

虽然这些工作更接近于捕捉真实的人类动作,但它们引入了人为设计的结构来实现迁移 ,从而限制了可捕捉任务的通用性。与这些工作并行,AR/VR 的进展使我们能够以 3D 手部与头部追踪 的形式从人类中提取明确的动作信息。最近的工作利用这一进展,以单一目标(未来动作预测)在人类与机器人数据上训练统一策略------无论预测对象是人手还是机器人末端执行器。

这些工作为直接利用大规模人类数据提供了有希望的路径,但在小规模数据/模型下这些方法通常较为脆弱(brittle)。因此,它们通常依赖某种形式的对齐才能良好工作------无论是运动学对齐、视觉对齐还是潜在空间(latent)对齐。

在作者的工作中,扩展了这类方法风格,并且不做任何显式的对齐步骤

2.2 异构VLA模型

现代的 VLA 被作为带有异构监督的通用策略进行训练,将机器人远程操作数据、网络级别的视觉-语言数据和语言注释整合到单一模型中。

这些模型利用强大的视觉-语言 backbone 从人类生成的图像与文本中获取广泛的语义理解,然后通过在大规模 teleoperation 数据集上进行 behavior cloning,把这种理解在机器人经验中落地。

虽然来自网络图像、视频与语言的监督能进一步提升开放世界的泛化能力,但这些数据缺乏明确的动作信息 ,并且在视觉上与机器人自视角(egocentric)观测存在分布差异

最近的 VLA 一个常见主题是 cross-embodiment 训练,即用单一策略、统一架构与动作表示去控制多种不同的机器人 embodiment。

这些多机器人 VLA 表明技能能在不同 embodiments 间迁移,通常无需专门的对齐,除了共享观测与动作空间之外。这表明异构的、多机器人预训练能产生在内部自然有利于跨体现迁移的表示。

基于这一跨体现假设,把人类也当作 同一异构 VLA 训练方案中的另一种 embodiment 来处理 。与可在 YouTube 上找到的 non-embodied 人类视频不同,在 VLA 混合数据中利用带有明确手部运动和语言注释的 embodiment 人类视频。

2.3 可扩展的数据采集策略

虽然大多数 VLA 主要依赖机器人远程操作(teleoperation)数据,但近来有些工作在探索更可扩展的替代数据采集机制。一些研究使用可携带硬件让用户用手操作以模拟远程操控,例如 UMI 是一种手持的平行颚抓手,它会追踪自身运动以用作示范数据。

若干工作将该设计扩展到可捕捉灵巧手(dexterous hands)的数据,采用外骨骼(exoskeletons)和便携式动作捕捉设备。虽然这些设备是提高数据可扩展性的令人兴奋的选项,但它们最终会束缚操作员 ,使得用这些设备自然地执行工作变得困难

确实,深有体会,感觉人类的那种完美的自由度被束缚了

捕捉 embodied 人类数据提供了一种有前途的方式来解决这些限制,使用相机与计算机视觉在尽量不干扰操作的情况下记录 3D 手部运动。这种方法使我们能够在不束缚操作员的情况下观察人类行为。因此,在本研究中我们将重点关注如何利用 embodied 人类数据的方法。

3. 预备知识

考虑用视觉-语言-动作(VLA)模型训练通用型(generalist)策略的设置 。VLA 继承 视觉-语言模型的网络结构与预训练权重,但被训练为产生连续的机器人控制信号

VLA 通常通过行为克隆(behavior cloning)在示范数据集上训练:数据集记为D=(ot,lt,at:t+H)D=(o_t,l_t,a_{t:t+H})D=(ot,lt,at:t+H) 策略的目标是把观测和语言指令映射为未来一段动作轨迹 :πθ(at:t+H∣ot,lt)π_θ(a_{t:t+H}∣o_t,l_t)πθ(at:t+H∣ot,lt)。

动作可以被表示为离散的 action tokens (可通过标准的 next-token 预测训练),也可以表示为连续值(通常通过 flow-matching 目标训练)。

在本工作中,作者遵循 Driess 等人并同时使用两种动作表示 :训练模型去预测离散化的 FAST action tokens ,并引入一个小型的 action expert 网络,通过 flow-matching 目标把连续动作解码出来。有关模型架构与训练目标的更多细节,参见文献 [20]

Physical Intelligence, Kevin Black, Noah Brown, James Darpinian, Karan Dhabalia, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai,Manuel Y. Galliker, Dibya Ghosh, Lachy Groom, Karol Hausman, Brian Ichter, Szymon Jakubczak, Tim Jones,Liyiming Ke, Devin LeBlanc, Sergey Levine, Adrian Li-Bell, Mohith Mothukuri, Suraj Nair, Karl Pertsch, Allen Z. Ren, Lucy Xiaoyang Shi, Laura Smith, Jost Tobias Springenberg, Kyle Stachowicz, James Tanner, Quan Vuong, Homer Walke, Anna Walling, Haohuan Wang, Lili Yu, and Ury Zhilinsky. π0.5: a vision-language-action model with open-world generalization, 2025. URLhttps://arxiv.org/abs/2504.16054.

最新的 VLA(例如 π0.5)显示:通过联合训练(co-training)并加入子任务预测、目标检测和 VQA 等额外目标,可以提升泛化能力。对于子任务预测,策略在给定视觉观测和高层语言指令的条件下,预测一个子任务字符串:p(ltsubtask∣ot,lt)p(l_t^{subtask}∣o_t,l_t)p(ltsubtask∣ot,lt).

这个子任务语言会被反馈回模型,用来条件化动作生成:πθ(at:t+H∣ot,lsubtask)π_θ(a_{t:t+H}∣o_t,l^{subtask})πθ(at:t+H∣ot,lsubtask),类似于 chain-of-thought 的思路。子任务标签通过对示范数据进行密集标注得到:用语言描述简短的、原子的动作序列。

在本研究中,对人类数据采用两项训练目标 :用于连续动作基于 flow 的预测 ,以及基于语言的子任务预测。换句话说,人类数据既用于学习低层连续运动(通过 flow-matching),也用于学习高层语义分解(subtask prediction),这两条并行目标有助于把人类示范的信息同时注入动作与语义表示。

4. 通过新兴的人机协同进行微调

作者的微调方案旨在将 embodied 人类数据与混合中的其他机器人数据以完全相同的方式利用 ,且不做任何显式的对齐。这种方法具有最大的通用性 ,它依赖于大型模型从多样来源中摄取相关信息的能力,而不是依靠人工设计的域对齐启发式方法。

首先收集、处理并注释 人类视频数据,然后将其与机器人数据结合 ,用来微调预训练模型 ------该模型基于图 4 所示的 π0.5。

该微调目标对人类与机器人数据完全相同地处理不包含任何 显式的迁移学习方法专门的损失项

4.1 人类数据收集流程

数采设备

作者设计的数据采集装置旨在能捕获广泛的人类交互,同时尽量不具侵入性,从而具有可扩展性。

  1. 为人类数据采集者配备了头戴式高分辨率相机
  2. 鉴于近期机器人研究表明腕部摄像头对策略学习有益 ------它能更详细地观察末端执行器与被操作物体的交互 ------作者还试验性地为采集者配备了腕部摄像头 ,提供两个额外且时间同步的摄像流

在第 5 节对这些附加摄像头的影响做了消融实验。

数据采集协议

目标是以类似 episodic 的机器人远程操控数据风格收集人类数据 ,这样可以把迁移问题限定为仅视觉与运动学差异的影响。因此,操作员被指示在佩戴数据采集设备时,为每个任务采集若干重复演示

此外,要求操作员保持双手在相机视野内以提高跟踪质量。为 bussing(物品搬运)采集了 3 小时数据,为 spice(撒料/调味)采集了 3 小时,为 dresser(整理/抽屉整理)采集了 3 小时,为 sort eggs(分拣鸡蛋)采集了 5 小时。

数据处理与注释

对于人类交互的原始视频,使用视觉 SLAM 来重建头戴相机相对于固定世界坐标系的 6 维移动 et∈R6e_t \in \mathbb{R}^6et∈R6。

还在头部相机坐标系中重建了双手 17 个 3D 关键点的位置信息,记作 htet∈R3×17h^{et}_t \in \mathbb{R}^{3\times17}htet∈R3×17。

最后,与训练混合中的机器人远程操控数据类似,也用基于文本的子任务人类视频数据进行注释描述每只手臂的动作

动作空间

希望在训练混合中大致对齐人类与机器人数据的动作表示,以便促进迁移。对于机器人远程操控数据,动作表示有多种选择。两种常用选项是把动作表示为机器人关节位置的轨迹末端执行器位姿的轨迹

作者将采用基于末端执行器的动作表示 ,因为要为人类近似关节位置很困难。具体地,这些末端执行器动作被表示为长度为 H 的动作块(action chunk):[a0,a1,...,aH][a_0,a_1,...,a_H][a0,a1,...,aH]其中每个 aia_iai 表示相对于当前观测状态(6-DoF 位姿 s0s_0s0)的 6-DoF 姿态。

机器人数据的总动作空间为:左臂末端执行器轨迹(6 DoF)加抓手(gripper),右臂末端执行器轨迹(6 DoF)加抓手,以及二维基座动作(base actions)的串联,得到总动作块:a∈RH×16a \in \mathbb{R}^{H×16}a∈RH×16.

为了在人体视频中计算相应的动作,定义了一个"末端执行器"位姿,该位姿覆盖每只手的掌心、中指和无名指的 3D 关键点(见图 6),相对于头部坐标系 ete_tet。然后像对机器人末端执行器那样,基于当前 6-DoF 状态计算手端动作的相对变换

同样地,通过将人类视频中的基座相机位姿投影到动作块首个时间步的基座相机位姿帧中,来近似人类的相对基座动作。这一步把头部/基座的位姿差(相对移动)转为与机器人基座动作可比的表示,从而把人类移动(走动/转向)映射为 robot base 的相对动作输入。

作者没有在人体视频中显式估计 "抓手动作",因为在物体交互过程中估计人手的张合程度具有挑战性 ;相反,仅从机器人数据中学习抓手动作。因此,人类动作维度为 2×6+6=18 维。

训练目标

在执行困难的长时程任务时,效果最好的方案同时利用高层的子任务预测和低层的动作预测。在人体数据上构建了这两类预测任务。

对于低层动作预测,通过两条路径监督动作块预测:一是对离散化的 FAST tokens 做 next-token 预测;二是对连续动作采用 flow-matching 损失来监督,即学习:
πθ(a∣ot,ltsubtask)\pi_\theta(a \mid o_t, l^\text{subtask}_t)πθ(a∣ot,ltsubtask)

对于高层子任务预测,对子任务语言 tokens 做 next-token 预测,形式为
πθ(ltsubtask∣ot,lt)\pi_\theta(l^\text{subtask}_t \mid o_t, l_t)πθ(ltsubtask∣ot,lt)

训练混合

在微调时,构造训练混合非常重要:既要保留模型原有能力,又要引入来自人类数据的新概念以提升泛化。混合遵循一个简单配方:对于泛化任务,把人类数据与其"最邻近"的机器人任务50-50 的比例共同训练(co-train)。

使用此混合来微调 π0.5(一个已展示零样本泛化能力的强 VLA),以进一步提升其能力。作为简称,把将 egocentric(自视角)数据整合进 π0.5 的组合模型称为 π0.5 + ego。

5. 实验发现

为了验证 π0.5 + ego 是否能从自视角(egocentric)人类数据中泛化到新概念,构建了一组"泛化"场景------这些场景在机器人数据中覆盖有限,但在人类数据中存在。这些场景覆盖三类泛化维度:新场景(scene)、新物体(object)与新任务(task)。

先从判断所提方案是否能把学到的东西迁移到这些新情境入手。接着验证核心假设:这种人类到机器人(human→robot)的迁移是多样化 VLA 预训练的涌现属性。

最后,将人类 embodiment 数据与其它机器人 embodiment 进行比较 ,研究迁移是否来自高层的子任务预测还是低层的动作预测,并做消融实验以评估佩戴式腕部摄像头的影响。

5.1 人类到机器人迁移的基准

基准旨在从场景、物体与任务三个泛化轴测试人类到机器人迁移能力(见图 3)。对每个轴,都选择机器人 teleop 数据覆盖不足的设置,然后采集有针对性的人类数据来扩展该覆盖。

在每种设置中,使用 π0.5 + ego 进行联合训练(co-train),并在由人类数据引入的新概念上做评估。

场景泛化

选出了两个任务:在固定数量房屋中有机器人数据覆盖,但仅用机器人数据训练的 π0.5 无法泛化到未见过的场景------即 Spice(整理调料架)和 Dresser(整理梳妆台顶部)。

在该未见目标厨房中采集人类数据 ,然后在此新场景上对 π0.5 + ego 进行基准测试。对于这两个短时程任务,评分采用二值成功率(success/failure)。

物品泛化

机器人数据覆盖了在混乱桌面(包含垃圾与餐具)上做 bussing(清理搬运)的场景。然后采集包含新物体 (例如厨房工具)的人类数据 ,并在这些新物体上对 π0.5 + ego 进行基准测试。对于这个较长时程任务,评分以正确放置的物体数量来衡量。

任务泛化

机器人数据覆盖了"拾取鸡蛋并放入纸托箱"的基本动作。采集了依据颜色将鸡蛋分类 到两个纸托箱的人类视频数据,并在该新任务上评测 π0.5 + ego。对这个较长时程任务,评分为正确放置的鸡蛋个数。有关任务设置与评分的更多细节,请参见附录 A。

5.2 实证结果摘要

在图 7 中报告了在这一组基准任务上的迁移结果。在所有三个泛化轴上,发现有针对性的人类数据采集与联合训练显著提升策略的泛化能力

具体而言,在场景与对象泛化上,联合训练后的任务得分显著提高:Spice 从 32% 增至 71%;dresser 从 25% 增至 50%;bussing 从 53% 增至 63%。

值得注意的是,在鸡蛋分拣任务上也观察到了强大的任务迁移仅用机器人数据 训练的策略仅具备基本的抓取放置技能,但没有"分类"概念,因而会随机放置鸡蛋 (分拣准确率为 57%)。相比之下,一旦与人类鸡蛋分拣视频联合训练,机器人策略的分拣准确率提升至 78%,平均比 π0.5 多正确放置 4 个鸡蛋。

5.3 人类到机器人迁移作为一种功能出现,依赖于跨场景、任务和体现形式的多样化VLA预训练

作者已证明 π0.5 + ego 能利用 embodied 的人类数据扩展其能力,进而引出了本文的核心问题:究竟是什么促成了这种迁移?

假设:在众多场景、任务与 embodiments 上进行多样化的策略预训练,是实现有效人类到机器人迁移的关键。直观上,经过强预训练的 VLA 可能学习到跨机体的抽象表示------将表示组织成捕获跨域共享结构的形式,从而促进迁移。

分两部分检验该假设。

  1. 首先我们验证:在泛化基准上,人类到机器人迁移随预训练多样性的增加而提升。
  2. 然后,分析随着预训练多样性增加,模型学得的表示如何变化。

实证:多样性使迁移涌现

为了评估 VLA 预训练对人类到机器人迁移的影响,我们在转移基准上重复实验,使用以下逐步增加多样性的预训练初始化设置:

  • 0%: 仅使用基础的 vision--language model(VLM)初始化。
  • 25%、50%、75%、100%: 在逐步增加多样性的机器人数据上进行 VLA 预训练------这些百分比对应数据集中 [scene--task] 组合全覆盖程度的不同分数,且限制为目标机器人 embodiment(ARX 与 mobile ARX)。
  • 100% + X-emb: π0.5 的完整 VLA 预训练混合(参见 [20]),此外还包含许多非目标机器人 embodiment 的数据。

对于每一种预训练初始化,训练两种模型:

  • 仅用数据集中最相似任务的机器人 teleop 数据;
  • 另一种在此基础上额外包含这些任务的人类 embodiment 数据。

这样就能衡量预训练多样性对人类→机器人迁移的影响。在图 2 中报告了实验结果。
具体地,报告在不同预训练多样性级别下 ------使用与不使用人类数据 模型之间的得分差异 。该差值表示了人类到机器人迁移随预训练多样性变化的幅度。发现:这种迁移会随着预训练多样性显著增加

在无或很少预训练 的情况下(0%、25%),VLA 无法从人类数据联合训练中受益 ;而在多样化预训练 (75%、100%)下,VLA 从人类数据联合训练中获得显著增益。如果预训练进一步包含跨机体的多样化数据(即来自多种非目标机器人 embodiment 的数据),迁移效果会得到进一步提升。

我们可以对每个任务的尺度(scale)趋势分别进行分析。例如在 Sort Eggs 任务中,我们观察到单靠增加预训练多样性 并不能让仅用机器人数据训练的策略成功完成 Sort Eggs------该任务在我们的机器人遥操作(robot teleoperation)数据中从未出现过 (见图 8)。

然而,预训练多样性的提升使我们能够从包含该新任务的人类数据中 迁移出明显更多的知识 。类似地,在 Dresser 任务上,直到我们使用到"50% pretrained checkpoint "之前,与人类视频一起进行 co-training 并没有带来性能提升 ,甚至可能产生负迁移(见图 13)。
但在 75% → 100% 且加上 X-emb 时 ,我们在 robot-only 基线之上看到了持续累积(stacked)的收益,即便预训练检查点本身已经更强。

更广泛地说,这些结果表明,随着我们预训练模型多样性的增加 ,从人到机器的迁移能力会持续改善 。这符合我们的直觉------因为我们预计场景、任务和"embodiments"的多样性 应该能提升模型形成"embodiment-agnostic"抽象能力。

随着预训练规模扩大,embodiment-agnostic 的表征开始出现。假设:多样化的预训练有助于产生 embodiment-agnostic 的表征,而这些表征又进一步改善从人到机器的迁移效果。为了验证这一点,在 co-training 后 对来自人类和机器人数据的视觉 tokens 做了 TSNE 分析 (见图 5)。
在预训练不足的情况下,模型在不同 embodiment 间的表征是分离的(disjoint),说明模型在分别拟合这些不同的数据分布 。随着预训练多样性的增加,这些表征开始收敛,表明模型为两种 embodiment 构建了统一的表示

先前那些使用较少数据的工作也观察到 co-training 会提升性能 ,但同时人类与机器人表征仍是分离 的,因此它们提出了若干方法来显式改善表示对齐 (representational alignment)。分析表明:在预训练数据足够多样化 的情况下,单靠 co-training 就能产生对齐的表征,从而促进迁移。

5.4 embodied 的人类数据与其他机器人的数据相比表现如何?

π0.5 +ego 将"人到机器"的迁移视为一种跨 embodiment 转移的实例,因此用机器人到机器人 (robot→robot)迁移来基准对比人→机器人 迁移是合乎情理的。这可以帮我们判断是否能把人类数据 当成混合数据池里的 "另一种机器人 embodiment"来利用。

首先将人类数据与一种"上界"情形做比较:那种情形下我们为基准任务收集了目标机器人(target robot)的数据(见图 9)。

在三项任务中有两项(Sort Eggs 和 Dresser),发现用人类数据进行 fine-tuning 的效果 几乎可以和用目标机器人本身的 in-domain 数据微调 一样好。但是我们注意到在 Bussing 任务上,目标机器人数据比单纯的人类数据更有效(25% 对 65%)。接着我们研究,对于一个新任务拥有身体信息的人类数据是否与**"非目标"机器人数据**(non-target robot data)具有大致相同的价值。

具体来说,在 Bussing 任务中在一台 UR5 机器人上收集了 400 条示范(共 7.45 小时),并评估把这些数据迁移到一台 arx 机器人 上的效果。在将人类数据迁移到 ARX将 UR5 数据迁移到 ARX 上 也观测到类似趋势------两者都优于基线 ,但都无法达到来自目标机器人本身数据的效果 ;这表明人类数据迁移跨 embodiment 的机器人数据迁移 具有相似的特性

5.5 迁移发生在什么层面?

一个自然的问题是:人类数据是否只能用来迁移"高层"语义概念,还是也会迁移"低层"的动作预测?在 Bussing 和 Eggs 任务中,在评估时没有使用高层策略,因此任何迁移都必须来自低层动作预测。

对于移动任务 Spice 和 Dresser,评估了高层 + 低层联合体系,并做了消融实验来分离各自的影响(见图 11)。具体比较了四种设置:仅机器人数据训练的 HL+LL、仅机器人 HL + 与人类共训的 LL、与人类共训的 HL + 仅机器人 LL,以及人类与机器人都共训的 HL+LL。

若仅在 HL 或仅在 LL 上利用人类数据,其效果都不及同时在 HL 与 LL 上用人类数据共训 ,这表明迁移发生在两个层面上。

当我们仅在 HL 上利用人类数据 时,低层策略无法正确执行高层命令。例如在 Spice 任务里,观察到一种失败模式:高层说"pick up the spice bottle"(拿起香料瓶),但低层策略却把盘子上已经存在的瓶子当作目标去拿起。再如在 Dresser 任务中,当高层指示"把项链放进首饰盒"时,低层有时却把项链放进了梳妆台的收纳格(dresser organizer)。

同样地,当我们仅在 LL 上利用人类数据 时,高层策略的命令表现也很差。例如在 Spice 里,高层会在瓶子已经被拿起很久之后仍然持续预测"pick up spice bottle",从而阻塞任务进展。在 Dresser 中,高层策略经常预测错误的动作,比如输出"把发夹放在梳妆台顶部"而不是正确地预测"把它放到收纳格里"。

5.6 人体佩戴的手腕摄像头有多重要?

为了弥补人类与机器人之间的传感器差距,我们选择用小型手腕摄像头 来采集人类数据,以模拟机器人机械臂上的腕部摄像头。作者想弄清楚这些摄像头有多重要,因为这会影响我们在大规模采集人体演示时应该如何给人配备传感器。

在图 12 中报告了在有人体视频是否包含手腕摄像头观测两种条件下的迁移结果对比。

对于像 Bussing 和 Dresser 这样的任务,我们观察到利用佩戴式手腕摄像头的人类数据能提升迁移效果 ;而对 Spice 和 Eggs 这类任务,额外的相机流并没有带来好处 。这符合我们的预期:因为有些任务对腕部摄像头在可观测性方面的依赖比其他任务更高

基于这些实验结果,认为用手腕摄像头采集 embodied 的人类数据能最大化地覆盖潜在任务空间。

6. 结论

作者在所提的方案 π0.5 + ego 中研究了"人到机器人"迁移的涌现机制。

发现:在预训练多样性受限 时,VLA(Vision--Language--Action 模型)无法从人类数据中迁移出 有用知识;但当预训练的多样性超过某个临界阈值后,迁移便开始显现。

虽然作者的配方在预训练阶段使用了大量的机器人遥操作 (teleoperation)数据,但作者最终只用到了几十小时的人类数据,而且这些人类数据是以"情节式/分段式(episodic)"方式采集的。

我们正朝着一个拥有大规模具身(embodied)人类数据集 的未来迈进------这些数据既包括像本研究中那样的情节式演示,也包括人们执行日常任务时被被动记录下来的连续视频。在预训练阶段如何有效利用这些数据 仍有大量工作要做,但作者认为本研究为用规模化的人类数据训练 VLA 奠定了基础。

作者的关于人到机器迁移出现性的发现预示着把 VLA 模型规模化发展是很有前景的。就像大型语言模型(LLMs)一样,更大的 VLA 不仅能提升已有任务的表现,还可能激发全新的能力。这些能力可能让我们更容易利用此前难以直接使用的数据源,并促进跨领域的更有效迁移------最终推动机器人基础模型进一步扩展规模。

利用人类视频可能只是其中一种新能力------随着我们继续放大机器人基础模型,想象还会涌现出哪些其他能力,本身就是一件令人振奋的事情。

相关推荐
路人与大师2 小时前
大规模多变量AutoML调参实验报告
人工智能·深度学习·机器学习
MoonBit月兔2 小时前
生态影响力持续提升,MoonBit 登 2025 中国技术品牌影响力榜单
大数据·人工智能·ai编程·moonbit
2501_945292172 小时前
AI证书的十字路口:政策变动后,国际通行证正在贬值吗?
人工智能
城市直通车3 小时前
聚焦产业落地与生态共建小拼AI携手火山引擎共推AIGC电商智能化升级
人工智能·aigc·火山引擎
傻啦嘿哟3 小时前
深度学习破解复杂验证码:CNN实战指南
人工智能·深度学习·cnn
人工智能培训3 小时前
深度学习—卷积神经网络(4)
人工智能·深度学习·神经网络·机器学习·cnn·dnn
小糖豆巴拉巴拉3 小时前
AI应用(1)-基础概念的理解
人工智能
CES_Asia3 小时前
亚洲科技话语权之争:CES Asia 2026核心展区席位进入收官阶段
大数据·人工智能·科技·物联网·机器人
一个会的不多的人3 小时前
人工智能基础篇:概念性名词浅谈(第十四讲)
人工智能·制造·数字化转型