破局机器人灵巧操作!英伟达EgoScale框架+Manus数据手套,解锁通用机器人灵巧未来

当机器人能流畅完成注射器抽液、单手分拣卡片、整齐折叠衬衫时,其智能便从"力大"迈入了"手巧"的新境界。NVIDIA 最新发布的 EgoScale 框架正是此突破的关键。它利用 超2万小时 ​ 的人类第一视角视频进行预训练,为配备22自由度Sharpa灵巧手的星海图机器人注入通用的"操作直觉";而将这份直觉精准"写入"机器人身体的关键,则在于 Manus 数据手套​ 在核心训练阶段扮演的"动作翻译官"角色。

实现灵巧操作规模化训练,Manus数据手套提供核心动作真值

一、核心挑战:如何跨越"人机"灵巧鸿沟?

训练机器人实现灵巧操作,长期面临数据与"身体"的双重瓶颈:机器人自产数据成本极高,而人类演示数据又因身体结构(尺寸、关节、力学)不同,难以直接迁移。此前方法或受限于数据规模,或仅针对简单机械爪,难以实现复杂的手指协同。

NVIDIA EgoScale 的创新在于一套清晰的"三步走"策略:

1、 海量观察:从20,854小时涵盖近万场景的人类第一视角视频中,学习通用的动手常识。

2、 精准对齐 :利用 Manus手套​ 采集的少量高精度人机配对数据,完成从"人类动作空间"到"机器人关节空间"的关键映射。

3、 快速精通:用极少量任务演示,让机器人迅速掌握如叠衬衫等高难技能。

其中,第二步的"精准对齐"是成败关键,Manus 数据手套(Metagloves Pro)正是此环节不可替代的桥梁。

【图1:EgoScale 整体框架与两阶段训练示意图】

二、双重突破:数据缩放定律与关键锚定

EgoScale 首先揭示了 "数据规模蕴含力量" ​ 的定律。研究发现,随着预训练人类视频数据量从1千小时增至2万小时,模型的动作预测误差遵循明确的 对数线性缩放定律 ​ 下降(简单说:人类预训练数据越多,机器人动作预测误差越小,且实际操作效果可精准预判)。且此"离线"误差与机器人最终真实任务成功率强相关(R² > 0.99)。这意味着,增加人类视频数据可可靠预测并提升机器人性能,为规模化训练指明道路。

【图5:数据缩放定律(预测误差与数据量的关系)及其与机器人任务成功率的关联图】

但仅有海量视频不够,需将基于人类身体的"动作概念"精准适配到机器人电机上。这正是 Manus 数据手套的核心舞台。

在关键的中间训练阶段,研究使用了 50小时由人佩戴Manus手套演示的数据 ​ 与 4小时机器人数据 ​ 进行配对训练。Manus手套的价值在于,它能以 每只手25个关节自由度​ 的精度,完整捕捉从手腕到指尖的所有细微姿态,提供关节级动作真值。

论文明确指出,此阶段"对于将预训练表征锚定到机器人的感知与动作空间至关重要 "。Manus手套提供的高保真、关节级"动作词典",让算法能精准地将人类手部意图"翻译"成机器人驱动指令,从而弥合"具身鸿沟"。

【图2a:数据采集设置示意图,展示人类操作者佩戴Manus数据手套与机器人协同演示】

其不可替代性体现在:

精度完整:25关节全面捕捉,确保捏、握、捻等精细动作细节不丢失,这对抽液、分卡等需精准力控的任务至关重要。

结构对齐:输出的标准关节旋转数据,与机器人控制系统使用的动作空间在数据格式上天然匹配,极大简化了"人-机"动作映射的学习过程。

数据质量:在受控环境下与动捕设备、摄像头实现毫秒级同步,采集的动作与视觉数据时空对齐,形成高质量的人机配对样本,是建立可靠 "人 - 机动作翻译规则" 的核心基础。

【图8:不同动作表征(如仅手腕、仅指尖、全关节)在各项灵巧任务上的性能对比图】

三、实测效能:从任务精通到跨身体泛化

这套组合拳成效显著:

性能飞跃 :在注射、分卡、拧盖、叠衣等5项复杂任务中,采用"人类预训练+Manus数据手套对齐"方案的模型,平均成功率比无预训练基线提升54% 。在仅提供1个 机器人叠衬衫演示的情况下,成功率高达88%,展现强大少样本学习能力。

跨平台泛化 :更惊人的是,这套在星海图Galaxea R1 Pro机器人+Sharpa五指灵巧手上学到的"动作先验",可迁移至结构迥异的搭载三指灵巧手的宇树机器人G1上,并在新任务上仍取得30% 以上的绝对成功率提升,证明其学到的是与具体身体无关的通用"运动智能"

【图4:不同训练方案(无预训练、仅人类预训练、人类预训练+中期训练)在多项任务上的成功率对比图】

四、深远意义:开启灵巧操作新范式

EgoScale 与 Manus数据手套的协同,标志着一个新范式的开启:

1、 数据革命 :证明丰富、易得的人类日常行为视频,可成为驱动机器人灵巧操作的主要数据源。人类自身成为可扩展的"训练化身"。

2、 对齐即设施 :凸显了高质量、精确对齐的"锚点"数据 的极端重要性。像 Manus 数据手套这类能提供关节级真值的工具,正从研发设备升级为机器人学习流程的核心基础设施

3、 通用化路径:"大规模预训练(人类视频)+ 精准对齐(Manus等)+ 少量微调"的路径,为系统攻克工业装配、实验室自动化、家庭服务乃至医疗辅助等领域的灵巧操作难题,提供了可扩展的蓝图。

结语

EgoScale 的成功,是"数据驱动"理念与"精准对齐"工程结合的典范。它预示着一个未来:机器人将由人类浩瀚的行为数据"浇灌"成长。而像 Manus 数据手套​ 这样的高精度"桥梁",正让人类细腻的动作智慧,顺畅注入机器身躯,共同塑造一个真正灵巧智能的未来。

版权 说明

  1. 论文原文:EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data(arXiv:2602.16710v1 [cs.RO])
  2. 项目官方网页:https://research.nvidia.com/labs/gear/egoscale/

++++本文核心内容与数据均来自 NVIDIA 团队 2026 年 2 月发表的 EgoScale 相关研究成果,++++ ++++如需转载,请完整保留本声明并注明原始出处。++++

欢迎关注 "欣佰特科技 " ,持续为大家带来 "具身智能领域 "前沿技术及应用!详情可邮件咨询++++sales@cnbestec.com++++

相关推荐
cnbestec2 个月前
MANUS发布MetaGloves Pro Haptic触觉反馈手套:毫米级精度+实时触觉反馈,开启机器人遥操作新范式
manus·manus数据手套·manus触觉反馈手套·manus动捕手套