松灵斯坦福Mobile ALOHA同款 | 通过低成本全身远程操作实现双手机器人移动操控学习

破解双手机器人移动操作的核心方案

当前机器人移动操控领域存在两大关键问题,严重制约技术落地:

  • **硬件门槛高:**传统双手机器人移动系统(如PR2、TIAGo)售价超 20 万美元,普通研究机构难以负担;且多数系统仅支持单臂或基础移动控制,缺乏 "双手 + 底座" 协同的全身远程操作能力,无法满足家务、烹饪等复杂场景需求。

  • **模仿学习效率低:**现有模仿学习多聚焦桌面级单任务(如拾取- 放置),针对 "移动 + 双手操控" 的适配性差;且需为特定硬件从零采集演示数据,数据量需求大,同时底座微小姿态偏差易导致手臂末端大幅偏移,任务成功率低。

为解决上述问题,斯坦福团队提出Mobile ALOHA系统,通过 "低成本硬件设计 + 跨数据集联合训练" 的组合方案,实现三大核心成果:

  • 硬件成本低,且支持全身远程操作;

  • 单任务仅需20-50 次演示即可自主完成复杂移动操控(如虾仁快炒、电梯呼叫);

  • 突破"静态操控" 局限,实现家庭、办公场景下的长时任务自主执行。

松灵斯坦福Mobile ALOHA同款实力"出圈"

松灵Cobot Magic作为基于Mobile ALOHA开发的全开源全身远程遥操作系统,其凭借适配的硬件设计与协同控制逻辑,同样展现出在低成本全身远程操作方面的潜力。可以帮用户更好地使用开源硬件机器人,适应不同环境的数据采集,成为开源硬件机器人应用的实用科教平台。

硬件核心:低成本远程操作系统

  • 双臂模块**:**基于ViperX 300双臂(14自由度,单臂载荷750g),改为 "平行朝前" 布局扩大空间,自主执行时可拆主导臂减重减占地;

  • **移动底座:**选用AgileX Tracer AGV(速度1.6m/s),低剖面设计 + 底部配重防倾倒,适配家庭 / 办公地形;

  • **全身控制设计:**操作者腰部与底座tethering连接,双手控臂时可反向驱动底座,同步记录底座速度与手臂数据;

  • **无绳化与感知:**1.26kWh电池(续航12小时)+ 消费级笔记本计算,3个 Logitech相机(腕部2个特写、顶部1个全局)采集观测。

算法核心:跨数据集联合训练策略

  • **动作向量构建:**拼接双臂14自由度关节位置与底座2维速度,形成16维向量,兼容现有模仿学习算法;

  • **联合训练:**1:1混合静态ALOHA数据(825个桌面任务)与Mobile 数据,静态数据补零底座动作、忽略前置相机,借 "运动先验" 提升精度;

  • **误差纠正:**用"动作分块" 预测连续动作,配合腕部相机视觉伺服,补偿底座 10cm 级偏移。

硬件参数

图2:硬件细节。左:Mobile ALOHA有两个腕部摄像头和一个顶部摄像头,配备车载电源和计算。中间:远程操作设置可以移除,在自主运行期间仅使用两台ViperX 300 [3] 执行。双臂可达到的最小/最大高度为65厘米/200厘米,从基座延伸100厘米。右:Mobile ALOHA技术规格。

任务测评

涵盖家务(擦拭红酒、使用壁柜、推进椅子)、烹饪(虾仁快炒、冲洗平底锅)、导航交互(呼叫电梯、击掌),需"移动 + 双手协同 + 精准操控"

图3:任务定义。我们展示了 Mobile ALOHA 能够自主完成的 6 项现实世界任务。对于每项任务,我们都描述了其随机化处理和子任务定义,同时还包含了每项任务的基本动作示意图(未按比例绘制)。

测评:

**联合训练****vs 无联合训练:**验证静态数据集的迁移价值;

表1:联合训练可提升 ACT 的性能。在 7 项具有挑战性的移动操作任务中,结合静态 ALOHA 数据集进行联合训练,能够持续提高 ACT 的成功率(%)。这一点在部分子任务中尤为重要,例如 "呼叫电梯" 任务中的 "按按钮" 以及 "冲洗平底锅" 任务中的 "打开水龙头",这些任务的瓶颈在于需要进行精准操作。

**多模仿学习算法兼容:**测试ACT、Diffusion Policy、VINN(带动作分块)的适配性;

**消融实验:**数据效率(25/35/50 次演示)、数据混合比例(30%/50%/70% 静态数据)、联合训练 vs 预训练。

表2:Mobile ALOHA 与最新的模仿学习方法兼容。采用分块处理的 VINN、Diffusion Policy 以及 ACT 在 Mobile ALOHA 上均取得了良好性能,且通过与静态 ALOHA 共同训练而获益。

图4:左图:数据效率。与仅使用Mobile ALOHA 数据进行训练相比,结合静态 ALOHA 数据进行共同训练能带来更高的数据效率,并实现持续改进;右图:联合训练与预训练对比。在"擦拭酒渍" 任务中,联合训练的效果优于预训练。对于预训练而言,我们首先在静态 ALOHA 数据上训练 ACT,然后再用 Mobile ALOHA 数据对其进行微调。

**指标:**任务成功率= 子任务成功率乘积,每组实验重复20次(虾仁快炒5次)。

关键成果与突破:推动领域普及化

  • 硬件成本革命:开源设计降低准入门槛,打破高端设备垄断;

  • 算法范式创新:验证静态数据迁移价值,将演示数据量降至20-50次,提供数据稀缺场景通用方案;

  • 功能边界拓展:实现长时复杂任务自主执行,具备误差纠正能力,为服务机器人落地铺路;

  • 人机协作优化:新手5次尝试即可接近专家速度,奠定 "远程教学 + 自主学习" 协作基础。

结语

Mobile ALOHA 以 "硬件低成本 + 算法高效化" 破解核心痛点,建立 "高可及、数据高效" 的研发范式。当前需优化硬件占地与臂高、升级算法泛化能力,未来有望成为家庭服务、工业辅助等场景的核心技术底座,推动机器人向通用协作伙伴演进。

松灵Cobot Magic对Mobile ALOHA的复现与开源,也将进一步助力这一技术在更多场景的探索与应用。

**项目详情:**https://mobile-aloha.github.io/

相关推荐
陈佬昔没带相机6 小时前
用 Dify/Coze 定制企业级的 AI 问答助手
人工智能·开源·coze
健康有益科技6 小时前
智能化健康座舱:重构出行健康管理模式的核心力量
人工智能·车载系统·汽车·健康医疗
深瞳智检6 小时前
深度学习环境搭建运行(一) Ubuntu22.04 系统安装 CUDA11.8 和 CUDNN8.6.0 详细步骤(新手入门)
人工智能·python·深度学习·yolo·计算机视觉
大学生毕业题目6 小时前
毕业项目推荐:64-基于yolov8/yolov5/yolo11的蝴蝶种类检测识别系统(Python+卷积神经网络)
人工智能·python·yolo·目标检测·cnn·pyqt·蝴蝶检测
AI浩6 小时前
深度学习核心损失函数详解:交叉熵、MSE、对比学习(InfoNCE)
人工智能·深度学习·学习
新智元6 小时前
刚刚,OpenAI把1GW超算中心直接给了印度!奥特曼即将亲赴办事处
人工智能·openai
m0_578267867 小时前
从零开始的python学习(九)P134+P135+P136+P137+P138+P139+P140
开发语言·python·学习
深蓝学院7 小时前
[ICCV25]TRACE:用3D高斯直接学习物理参数,让AI“推演”未来场景
人工智能·学习·3d
封奚泽优7 小时前
提取动漫图像轮廓并拟合为样条曲线(MATLAB)
图像处理·人工智能·计算机视觉·matlab·deepseek