松灵斯坦福Mobile ALOHA同款 | 通过低成本全身远程操作实现双手机器人移动操控学习

破解双手机器人移动操作的核心方案

当前机器人移动操控领域存在两大关键问题，严重制约技术落地：

**硬件门槛高：**传统双手机器人移动系统（如PR2、TIAGo）售价超 20 万美元，普通研究机构难以负担；且多数系统仅支持单臂或基础移动控制，缺乏 "双手 + 底座" 协同的全身远程操作能力，无法满足家务、烹饪等复杂场景需求。
**模仿学习效率低：**现有模仿学习多聚焦桌面级单任务（如拾取- 放置），针对 "移动 + 双手操控" 的适配性差；且需为特定硬件从零采集演示数据，数据量需求大，同时底座微小姿态偏差易导致手臂末端大幅偏移，任务成功率低。

为解决上述问题，斯坦福团队提出Mobile ALOHA系统，通过 "低成本硬件设计 + 跨数据集联合训练" 的组合方案，实现三大核心成果：

硬件成本低，且支持全身远程操作；
单任务仅需20-50 次演示即可自主完成复杂移动操控（如虾仁快炒、电梯呼叫）；
突破"静态操控" 局限，实现家庭、办公场景下的长时任务自主执行。

松灵斯坦福Mobile ALOHA同款实力"出圈"

松灵Cobot Magic作为基于Mobile ALOHA开发的全开源全身远程遥操作系统，其凭借适配的硬件设计与协同控制逻辑，同样展现出在低成本全身远程操作方面的潜力。可以帮用户更好地使用开源硬件机器人，适应不同环境的数据采集，成为开源硬件机器人应用的实用科教平台。

硬件核心：低成本远程操作系统

双臂模块**：**基于ViperX 300双臂（14自由度，单臂载荷750g），改为 "平行朝前" 布局扩大空间，自主执行时可拆主导臂减重减占地；
**移动底座：**选用AgileX Tracer AGV（速度1.6m/s），低剖面设计 + 底部配重防倾倒，适配家庭 / 办公地形；
**全身控制设计：**操作者腰部与底座tethering连接，双手控臂时可反向驱动底座，同步记录底座速度与手臂数据；
**无绳化与感知：**1.26kWh电池（续航12小时）+ 消费级笔记本计算，3个 Logitech相机（腕部2个特写、顶部1个全局）采集观测。

算法核心：跨数据集联合训练策略

**动作向量构建：**拼接双臂14自由度关节位置与底座2维速度，形成16维向量，兼容现有模仿学习算法；
**联合训练：**1:1混合静态ALOHA数据（825个桌面任务）与Mobile 数据，静态数据补零底座动作、忽略前置相机，借 "运动先验" 提升精度；
**误差纠正：**用"动作分块" 预测连续动作，配合腕部相机视觉伺服，补偿底座 10cm 级偏移。

硬件参数

图2：硬件细节。左：Mobile ALOHA有两个腕部摄像头和一个顶部摄像头，配备车载电源和计算。中间：远程操作设置可以移除，在自主运行期间仅使用两台ViperX 300 [3] 执行。双臂可达到的最小/最大高度为65厘米/200厘米，从基座延伸100厘米。右：Mobile ALOHA技术规格。

任务测评

涵盖家务（擦拭红酒、使用壁柜、推进椅子）、烹饪（虾仁快炒、冲洗平底锅）、导航交互（呼叫电梯、击掌），需"移动 + 双手协同 + 精准操控"

图3：任务定义。我们展示了 Mobile ALOHA 能够自主完成的 6 项现实世界任务。对于每项任务，我们都描述了其随机化处理和子任务定义，同时还包含了每项任务的基本动作示意图（未按比例绘制）。

测评：

**联合训练****vs 无联合训练：**验证静态数据集的迁移价值；

表1：联合训练可提升 ACT 的性能。在 7 项具有挑战性的移动操作任务中，结合静态 ALOHA 数据集进行联合训练，能够持续提高 ACT 的成功率（%）。这一点在部分子任务中尤为重要，例如 "呼叫电梯" 任务中的 "按按钮" 以及 "冲洗平底锅" 任务中的 "打开水龙头"，这些任务的瓶颈在于需要进行精准操作。

**多模仿学习算法兼容：**测试ACT、Diffusion Policy、VINN（带动作分块）的适配性；

**消融实验：**数据效率（25/35/50 次演示）、数据混合比例（30%/50%/70% 静态数据）、联合训练 vs 预训练。

表2：Mobile ALOHA 与最新的模仿学习方法兼容。采用分块处理的 VINN、Diffusion Policy 以及 ACT 在 Mobile ALOHA 上均取得了良好性能，且通过与静态 ALOHA 共同训练而获益。

图4：左图：数据效率。与仅使用Mobile ALOHA 数据进行训练相比，结合静态 ALOHA 数据进行共同训练能带来更高的数据效率，并实现持续改进；右图：联合训练与预训练对比。在"擦拭酒渍" 任务中，联合训练的效果优于预训练。对于预训练而言，我们首先在静态 ALOHA 数据上训练 ACT，然后再用 Mobile ALOHA 数据对其进行微调。

**指标：**任务成功率= 子任务成功率乘积，每组实验重复20次（虾仁快炒5次）。

关键成果与突破：推动领域普及化

硬件成本革命：开源设计降低准入门槛，打破高端设备垄断；
算法范式创新：验证静态数据迁移价值，将演示数据量降至20-50次，提供数据稀缺场景通用方案；
功能边界拓展：实现长时复杂任务自主执行，具备误差纠正能力，为服务机器人落地铺路；
人机协作优化：新手5次尝试即可接近专家速度，奠定 "远程教学 + 自主学习" 协作基础。

结语

Mobile ALOHA 以 "硬件低成本 + 算法高效化" 破解核心痛点，建立 "高可及、数据高效" 的研发范式。当前需优化硬件占地与臂高、升级算法泛化能力，未来有望成为家庭服务、工业辅助等场景的核心技术底座，推动机器人向通用协作伙伴演进。

松灵Cobot Magic对Mobile ALOHA的复现与开源，也将进一步助力这一技术在更多场景的探索与应用。

**项目详情：**https://mobile-aloha.github.io/