松灵斯坦福Mobile ALOHA同款 | 通过低成本全身远程操作实现双手机器人移动操控学习

破解双手机器人移动操作的核心方案

当前机器人移动操控领域存在两大关键问题,严重制约技术落地:

  • **硬件门槛高:**传统双手机器人移动系统(如PR2、TIAGo)售价超 20 万美元,普通研究机构难以负担;且多数系统仅支持单臂或基础移动控制,缺乏 "双手 + 底座" 协同的全身远程操作能力,无法满足家务、烹饪等复杂场景需求。

  • **模仿学习效率低:**现有模仿学习多聚焦桌面级单任务(如拾取- 放置),针对 "移动 + 双手操控" 的适配性差;且需为特定硬件从零采集演示数据,数据量需求大,同时底座微小姿态偏差易导致手臂末端大幅偏移,任务成功率低。

为解决上述问题,斯坦福团队提出Mobile ALOHA系统,通过 "低成本硬件设计 + 跨数据集联合训练" 的组合方案,实现三大核心成果:

  • 硬件成本低,且支持全身远程操作;

  • 单任务仅需20-50 次演示即可自主完成复杂移动操控(如虾仁快炒、电梯呼叫);

  • 突破"静态操控" 局限,实现家庭、办公场景下的长时任务自主执行。

松灵斯坦福Mobile ALOHA同款实力"出圈"

松灵Cobot Magic作为基于Mobile ALOHA开发的全开源全身远程遥操作系统,其凭借适配的硬件设计与协同控制逻辑,同样展现出在低成本全身远程操作方面的潜力。可以帮用户更好地使用开源硬件机器人,适应不同环境的数据采集,成为开源硬件机器人应用的实用科教平台。

硬件核心:低成本远程操作系统

  • 双臂模块**:**基于ViperX 300双臂(14自由度,单臂载荷750g),改为 "平行朝前" 布局扩大空间,自主执行时可拆主导臂减重减占地;

  • **移动底座:**选用AgileX Tracer AGV(速度1.6m/s),低剖面设计 + 底部配重防倾倒,适配家庭 / 办公地形;

  • **全身控制设计:**操作者腰部与底座tethering连接,双手控臂时可反向驱动底座,同步记录底座速度与手臂数据;

  • **无绳化与感知:**1.26kWh电池(续航12小时)+ 消费级笔记本计算,3个 Logitech相机(腕部2个特写、顶部1个全局)采集观测。

算法核心:跨数据集联合训练策略

  • **动作向量构建:**拼接双臂14自由度关节位置与底座2维速度,形成16维向量,兼容现有模仿学习算法;

  • **联合训练:**1:1混合静态ALOHA数据(825个桌面任务)与Mobile 数据,静态数据补零底座动作、忽略前置相机,借 "运动先验" 提升精度;

  • **误差纠正:**用"动作分块" 预测连续动作,配合腕部相机视觉伺服,补偿底座 10cm 级偏移。

硬件参数

图2:硬件细节。左:Mobile ALOHA有两个腕部摄像头和一个顶部摄像头,配备车载电源和计算。中间:远程操作设置可以移除,在自主运行期间仅使用两台ViperX 300 [3] 执行。双臂可达到的最小/最大高度为65厘米/200厘米,从基座延伸100厘米。右:Mobile ALOHA技术规格。

任务测评

涵盖家务(擦拭红酒、使用壁柜、推进椅子)、烹饪(虾仁快炒、冲洗平底锅)、导航交互(呼叫电梯、击掌),需"移动 + 双手协同 + 精准操控"

图3:任务定义。我们展示了 Mobile ALOHA 能够自主完成的 6 项现实世界任务。对于每项任务,我们都描述了其随机化处理和子任务定义,同时还包含了每项任务的基本动作示意图(未按比例绘制)。

测评:

**联合训练****vs 无联合训练:**验证静态数据集的迁移价值;

表1:联合训练可提升 ACT 的性能。在 7 项具有挑战性的移动操作任务中,结合静态 ALOHA 数据集进行联合训练,能够持续提高 ACT 的成功率(%)。这一点在部分子任务中尤为重要,例如 "呼叫电梯" 任务中的 "按按钮" 以及 "冲洗平底锅" 任务中的 "打开水龙头",这些任务的瓶颈在于需要进行精准操作。

**多模仿学习算法兼容:**测试ACT、Diffusion Policy、VINN(带动作分块)的适配性;

**消融实验:**数据效率(25/35/50 次演示)、数据混合比例(30%/50%/70% 静态数据)、联合训练 vs 预训练。

表2:Mobile ALOHA 与最新的模仿学习方法兼容。采用分块处理的 VINN、Diffusion Policy 以及 ACT 在 Mobile ALOHA 上均取得了良好性能,且通过与静态 ALOHA 共同训练而获益。

图4:左图:数据效率。与仅使用Mobile ALOHA 数据进行训练相比,结合静态 ALOHA 数据进行共同训练能带来更高的数据效率,并实现持续改进;右图:联合训练与预训练对比。在"擦拭酒渍" 任务中,联合训练的效果优于预训练。对于预训练而言,我们首先在静态 ALOHA 数据上训练 ACT,然后再用 Mobile ALOHA 数据对其进行微调。

**指标:**任务成功率= 子任务成功率乘积,每组实验重复20次(虾仁快炒5次)。

关键成果与突破:推动领域普及化

  • 硬件成本革命:开源设计降低准入门槛,打破高端设备垄断;

  • 算法范式创新:验证静态数据迁移价值,将演示数据量降至20-50次,提供数据稀缺场景通用方案;

  • 功能边界拓展:实现长时复杂任务自主执行,具备误差纠正能力,为服务机器人落地铺路;

  • 人机协作优化:新手5次尝试即可接近专家速度,奠定 "远程教学 + 自主学习" 协作基础。

结语

Mobile ALOHA 以 "硬件低成本 + 算法高效化" 破解核心痛点,建立 "高可及、数据高效" 的研发范式。当前需优化硬件占地与臂高、升级算法泛化能力,未来有望成为家庭服务、工业辅助等场景的核心技术底座,推动机器人向通用协作伙伴演进。

松灵Cobot Magic对Mobile ALOHA的复现与开源,也将进一步助力这一技术在更多场景的探索与应用。

**项目详情:**https://mobile-aloha.github.io/

相关推荐
im_AMBER12 分钟前
Leetcode 78 识别数组中的最大异常值 | 镜像对之间最小绝对距离
笔记·学习·算法·leetcode
世岩清上12 分钟前
AI驱动的智能运维:从自动化到自主化的技术演进与架构革新
运维·人工智能·自动化
K2_BPM14 分钟前
告别“单点智能”:AI Agent如何重构企业生产力与流程?
人工智能
TMT星球16 分钟前
深业云从人工智能产业投资基金设立,聚焦AI和具身智能相关产业
人工智能
鼾声鼾语37 分钟前
matlab的ros2发布的消息,局域网内其他设备收不到情况吗?但是matlab可以订阅其他局域网的ros2发布的消息(问题总结)
开发语言·人工智能·深度学习·算法·matlab·isaaclab
其美杰布-富贵-李44 分钟前
HDF5文件学习笔记
数据结构·笔记·学习
Dingdangcat861 小时前
中药材图像识别与分类 RetinaNet-R101-FPN模型详解
人工智能·数据挖掘
老蒋新思维1 小时前
创客匠人视角:智能体重构创始人 IP,知识变现从 “内容售卖” 到 “能力复制” 的革命
大数据·网络·人工智能·tcp/ip·创始人ip·创客匠人·知识变现
Honmaple1 小时前
Spring AI 2.x 发布:全面拥抱 Java 21,Redis 史诗级增强
java·人工智能·spring
古城小栈1 小时前
区块链 + AI:医疗诊断模型存证上链技术实践与探索
人工智能·区块链