EgoScale: 基于多样化第一人称视角人类数据的灵巧操作规模化

NVIDIA、加州大学伯克利分校和马里兰大学的研究人员开发了EgoScale，这是一个利用超过20000小时以自我为中心的人类视频来训练灵巧机器人操作策略的框架。该方法使22自由度机械手在任务完成率和成功率方面提高了54%，建立了人类数据的对数线性标度律，并实现了单次任务适应和跨实体泛化。

概述

EgoScale提出了一种通过大规模人类数据学习灵巧机器人操作的系统方法，证明了人类行为数据可以作为复杂机器人控制任务的主要训练信号。这项工作解决了机器人学中的一个基本挑战：如何将人类日常展示的丰富操作技能高效地转移到具有高度自由度的机器人系统上。

该研究将人到机器人的转移确立为一种规模化现象，表明增加人类训练数据的量会导致机器人性能的可预测改进。作者利用超过20,000小时的以自我为中心的人类视频数据------比以往的努力大20多倍------训练视觉-语言-动作模型，这些模型可以控制22自由度的灵巧机械手执行复杂的操纵任务。

方法论与技术途径

EgoScale框架采用两阶段训练方案，将大规模多样化预训练与精确的具身对齐解耦。该方法以视觉-语言-动作（VLA）模型架构为核心，该架构处理以自我为中心的图像和语言指令，以预测机器人动作序列。

人类动作表示

该方法的一个关键组成部分是将人类传感器流转换为机器人兼容的动作表示。系统使用相对变换捕捉手腕级的手臂运动：

\\Delta W_t = (W_0\^w)\^{-1} W_t\^w

这种表示使得运动指令对全局摄像机运动保持不变，同时保留了局部手臂动力学。对于手部关节运动，系统通过基于优化的程序将人类手部姿态（21个关键点）重新映射到目标机械手的22自由度关节空间。

数据来源与处理

训练数据包括两个不同类别，服务于不同的目的：

第一阶段数据（20,854小时）： 来自不同真实世界环境（包括家庭、工业和零售环境）的大规模以自我为中心的人类记录。虽然嘈杂且不受约束，但这些数据提供了各种场景、任务和对象的操作行为的广泛覆盖。

第二阶段数据（总计54小时）： 一个较小但经过精心对齐的数据集，其中人类和遥控机器人在匹配的环境中执行相似的桌面操作任务。这些数据弥合了人类演示和机器人执行之间的领域差距。

训练流程

三阶段训练过程系统地利用了两种数据类型：

人类预训练： VLA模型在20,854小时的人类数据上训练100,000步，所有参数都更新以吸收大规模行为模式。
对齐中期训练： 在对齐的人机数据集上进一步训练50,000步，其中视觉-语言骨干网络被冻结，仅更新视觉编码器和动作组件。
任务特定微调： 在机器人演示（每个任务通常100条轨迹）上进行最终调整，持续10,000步。

主要发现与结果

规模化定律的发现

研究揭示了人类数据量与模型性能之间存在清晰的对数线性关系。验证损失随数据增加呈对数下降：

L = 0.024 - 0.003 \\times \\ln(D)

其中D表示数据量（小时），R² = 0.9983。这种验证损失与真实机器人任务性能密切相关，平均任务完成率从1,000小时训练数据的0.30单调增加到20,000小时的0.71。

性能改进

经过人类预训练和对齐中期训练的模型实现了显著的性能提升：

与没有人类预训练的基线相比，平均任务完成率提高了54%以上
评估的操作任务的平均成功率提高了54%
在需要精细手指关节运动的任务中持续改进

涌现能力

这种结合的训练方法实现了卓越的泛化特性：

一次性任务适应： 仅凭一次机器人演示并辅以对齐的人类数据，该系统在衬衫折叠任务上取得了88%的成功率，在拧开瓶盖任务上取得了55%的成功率------这些能力是在没有针对这些特定任务进行明确训练的情况下涌现出来的。

跨具身迁移： 经过人类预训练的策略成功迁移到截然不同的机器人硬件上，包括一个7自由度的三指手，相比仅通过机器人训练，成功率绝对提升了30%以上。

动作表示分析

消融研究证实，重定向的关节空间手部动作在各种操作任务中提供了最稳定一致的性能。腕部运动或指尖控制等替代表示方法表现不佳，特别是对于需要精确手指协调的任务。

贡献与意义

EgoScale 为机器人学和具身AI领域做出了几项重要贡献：

建立预测性缩放定律： 这项工作首次提供了系统性证据，表明人到机器人的迁移遵循可预测的缩放关系，类似于在大型语言模型中观察到的关系。这使得研究人员能够估算达到目标性能水平所需的数据量。

展示大规模迁移： 通过成功利用超过20,000小时的人类数据来训练灵巧操作策略，这项研究表明，人类行为数据可以作为复杂机器人控制的主要而非辅助训练信号。

高效迁移方案： 大规模预训练后进行有针对性对齐的两阶段方法，为在不进行大量机器人特定数据收集的情况下开发有能力的操作策略提供了一条实用途径。

跨具身泛化： 在显著不同的机器人手（22自由度到7自由度）之间成功迁移，表明人类运动提供了与具身无关的运动先验知识，可以适应各种硬件平台。

这项工作将人类行为数据定位为开发复杂机器人操作能力的可扩展基础，可能加速灵巧机器人在现实世界应用中的部署。所建立的缩放定律和迁移方法为未来从人类演示中学习物理智能的研究提供了科学框架。

Egovla：从第一人称人类视频中学习视觉-语言-动作模型

本文是一项基础性相关工作，它也预训练了一个基于人类手部运动的视觉-语言-动作 (VLA) 模型，用于机器人迁移。EgoScale 论文明确比较了其手部动作表示（重定向关节）与 EgoVLA 中使用的基于指尖的表示，使其成为一个直接的方法学基准。

Ruihan Yang, Qinxi Yu, Yecheng Wu, Rui Yan, Borui Li, An-Chieh Cheng, Xueyan Zou, Yunhao Fang, Xuxin Cheng, Ri-Zhao Qiu, et al. Egovla: Learning vision-language-action models from egocentric human videos. arXiv preprint arXiv:2507.12440, 2025.

第一人称模仿：通过自我视角视频实现模仿学习的规模化

EgoMimic是一项高度相关的现有工作，它也专注于使用以自我为中心的人类数据来扩展机器人模仿学习。EgoScale论文将其贡献，特别是扩展定律的发现以及使用了超过20倍的数据，定位为与EgoMimic等早期工作形成鲜明对比。

Simar Kareer, Dhruv Patel, Ryan Punamiya, Pranay Mathur, Shuo Cheng, Chen Wang, Judy Hoffman, and Danfei Xu. Egomimic: Scaling imitation learning via egocentric video, 2024. URL https://arxiv.org/ abs/2410.24221.

Gr00t n1：通用型人形机器人开放基础模型

这一引用至关重要，因为 EgoScale 论文明确指出其模型遵循类似于 GR00T N1 的基于流的 VLA 架构。它还采用了 GR00T N1 中所用的具身条件适配器，这使其成为该论文模型架构和方法论的一个基本参考。

NVIDIA, :, Johan Bjorck, Fernando Castañeda, Nikita Cherniadev, Xingye Da, Runyu Ding, Linxi "Jim" Fan, Yu Fang, Dieter Fox, Fengyuan Hu, Spencer Huang, Joel Jang, Zhenyu Jiang, Jan Kautz, Kaushil Kundalia, Lawrence Lao, Zhiqi Li, Zongyu Lin, Kevin Lin, Guilin Liu, Edith Llontop, Loic Magne, Ajay Mandlekar, Avnish Narayan, Soroush Nasiriany, Scott Reed, You Liang Tan, Guanzhi Wang, Zu Wang, Jing Wang, Qi Wang, Jiannan Xiang, Yuqi Xie, Yinzhen Xu, Zhenjia Xu, Seonghyeon Ye, Zhiding Yu, Ao Zhang, Hao Zhang, Yizhou Zhao, Ruijie Zheng, and Yuke Zhu. Gr00t n1: An open foundation model for generalist humanoid robots, 2025. URL https://arxiv.org/abs/2503.14734.

Egodex：从大规模第一人称视角视频中学习灵巧操作

这篇论文是EgoScale预训练阶段所使用的一个重要数据集的来源。作者明确指出，他们纳入了829小时的EgoDex数据集，以提供更高精度的运动学信号，这补充了他们更大、更嘈杂的野外数据，并且对其数据策略至关重要。

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, and Jian Zhang. Egodex: Learning dexterous manipulation from large-scale egocentric video, 2025. URL https://arxiv.org/abs/2505.11709.

EgoScale: 基于多样化第一人称视角人类数据的灵巧操作规模化

目录

概述

方法论与技术途径

主要发现与结果

贡献与意义

概述

方法论与技术途径

人类动作表示

数据来源与处理

训练流程

主要发现与结果

规模化定律的发现

性能改进

涌现能力

动作表示分析

贡献与意义