当前视觉操作(VLA)、具身模仿学习算法普遍存在数据采集门槛高的问题:主流训练方案依赖大量机器人遥操作轨迹,单套双臂设备采集数十小时数据,人力与硬件损耗成本高昂;同时算法高度绑定特定机械臂,跨设备零样本泛化能力薄弱。马里兰大学发表相关 HumanEgo 框架给出全新解法,主实验真实场景验证基于 Trossen Robotics WidowX AI 双臂工作站(Stationary AI 套件)完成。

一、HumanEgo 框架核心技术链路
HumanEgo 核心逻辑是彻底脱离机器人采集环节,仅使用普通人佩戴 Meta Aria 智能眼镜(MPS 感知管线)录制分钟级第一视角视频训练操作策略:
-
数据采集端:Meta Aria 内置 MPS 感知管线,原生输出高精度 6DoF 相机 SLAM 轨迹、21 点手部三维关键点、同步 RGB 画面,无需实验室标定,居家场景即可完成倒水、收纳、取物等任务演示;
-
算法核心创新:提出交互中心 Token (ICT) 表征,剥离相机、机械臂运动学差异,只保留手与物体的相对空间关系;搭配多稠密辅助目标流匹配策略,充分挖掘少量人类视频内监督信号;
-
量化实验结果:仅 15 分钟人类演示视频平均任务成功率 75%,30 分钟数据可达 92.5%,同等时长下性能超越遥操作基线 41%,支持跨 WidowX AI、UR10、Franka 三类机械零样本泛化。

二、实验真机硬件:Trossen WidowX
论文四组居家实操任务均采用两台 WidowX AI 组成Stationary AI双臂工作台:

-
单臂硬件参数:6 自由度串联结构,配套平行夹爪末端执行器,最大有效载荷 1.5kg,末端重复定位精度 ±1mm;
-
实验部署方案:工作台上方架设 Intel RealSense D405 作为全局唯一视觉输入,全程未启用机械腕部相机,严格复现算法纯全局视觉训练逻辑;
-
平台适配优势:开源底层控制接口,兼容 MuJoCo、ROS、各类视觉大模型,是可开展双臂模仿学习对照实验的常用科研硬件。
三、算法与硬件协同科研价值
HumanEgo 框架具备硬件无关特性,训练完成的策略可零样本迁移至 WidowX AI、Franka、UR10 多类机械臂;对于课题组而言,搭配 Trossen WidowX AI 双臂设备,可大幅缩减机器人数据集采集周期,快速迭代居家柔性抓取、多物体整理类具身 AI 模型。

论文 arXiv 查阅链接:https://arxiv.org/abs/2605.24934
欢迎关注 "欣佰特科技" ,持续为大家带来 "具身智能领域" 前沿技术及应用!详情可邮件咨询 sales@cnbestec.com