TidyBot++ 一种用于机器人学习的开源全向移动机械臂【文献解读】
论文标题:TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning
作者:Jimmy Wu¹, William Chong², Robert Holmberg³, Aaditya Prasad², Yihuai Gao², Oussama Khatib², Shuran Song², Szymon Rusinkiewicz¹, Jeannette Bohg²
机构:¹Princeton University, ²Stanford University, ³Dexterity
发表信息 :CoRL 2024, arXiv:2412.10447
开源Github地址:https://github.com/jimmyyhwu/tidybot2
一、关键科学问题与技术挑战
1.1 核心问题
如何为移动操作(mobile manipulation)的模仿学习提供低成本、高机动性、易采集数据的研究硬件平台? 本文从硬件设计出发,解决移动操作数据采集与策略学习中的系统性瓶颈。本文实物如下:

1.2 技术挑战
-
移动操作数据匮乏:与自然语言处理可利用互联网数据不同,机器人策略训练所需的真实世界数据极难获取。现有大规模机器人学习数据集(DROID、Open X-Embodiment等)主要在固定臂平台上采集,缺乏移动操作数据。
-
现有移动底盘的机动性限制:大多数商用移动底盘采用差速驱动(differential drive),受非完整约束限制,无法侧向移动。执行开门、擦拭台面等常见家庭任务时需要侧向运动,差速驱动底盘必须执行类似"侧方停车"的复杂多步操作,增加运动时间和策略学习难度。
-
全向移动与全息移动的混淆:麦克纳姆轮底盘虽可全向移动,但存在接地不连续(振动大)、抓地力差、越障能力弱等缺陷。且无脚轮偏移(caster offset)的全向底盘仍是非完整的------车轮需先对准运动方向才能开始移动。
-
遥操作设备的局限性:现有遥操作方案存在各种问题:Oculus控制器需保持在红外接收器视野内;仅依赖IMU的手机遥操作存在漂移;专用遥操作设备需额外购买;操作者固定在机器人后方难以精确操控末端执行器。
-
非完整底盘对策略学习的负面影响:非完整底盘只能以速度模式控制,无法直接在位置空间中精确指令;差速驱动的复杂侧移策略使学习问题更难,且底盘转向导致相机视野晃动,降低观测质量。
二、研究方法与算法原理
2.1 整体技术路线
硬件设计(全息移动底盘)
├── 动力脚轮驱动机制(Powered-caster drive)
├── 模块化框架(T-slot铝型材)
└── 通用供电(便携电站 + SLA电池)
↓
遥操作接口(手机WebXR)
├── 6-DoF手机位姿实时流
└── IMU + 视觉里程计融合(抗漂移)
↓
数据采集 → 模仿学习(Diffusion Policy)
↓
真实家庭环境部署
2.2 全息移动底盘设计
2.2.1 动力脚轮驱动机制(Powered-Caster Drive)
核心设计:基于 Holmberg 和 Khatib 28 提出的动力脚轮车辆(PCV)运动学模型,使用四个电机化脚轮模块驱动底盘。如下图:

脚轮原理:脚轮的关键设计特征是转向轴(swivel axis)与车轮滚动轴(roll axis)之间存在偏移量(caster offset)。该偏移量形成杠杆臂,使车轮自动尾随转向轴方向对齐运动方向------这正是办公椅可任意方向推动的原理。
- 无脚轮偏移(如普通万向轮/swerve模块):全向但非完整,需先对准车轮方向才能运动
- 有脚轮偏移(如脚轮/caster):全息(holonomic),可瞬时向任意方向加速
2.2.2 运动学建模
每个脚轮模块建模为两个旋转关节:
| 关节 | 功能 |
|---|---|
| 转向关节(steer joint)ϕ\phiϕ | 决定车轮转向角 |
| 滚动关节(roll joint)ρ\rhoρ | 测量车轮旋转运动 |
每个模块配备:
- 电机内置增量编码器(测量关节位置和速度)
- 转向轴绝对编码器(消除启动归位运动需求)
- USB-to-CAN适配器(通过CAN总线通信)
与原始PCV公式的差异 :本文脚轮模块具有二维偏移量------纵向偏移 bxb_xbx 和横向偏移 byb_yby(而非单一偏移 bbb),这是为最小化定制零件数量的设计折衷。消除横向偏移需设计更多定制零件或从零设计脚轮,会显著降低设计的可及性。
2.2.3 从Swerve模块到Caster模块的改造
底盘驱动系统基于 FIRST 机器人竞赛(FRC)生态中广泛使用的 SDS MK4 swerve 模块:
| 特性 | Swerve模块 | Caster模块(改造后) |
|---|---|---|
| 脚轮偏移 | 无 | 有(14mm) |
| 运动特性 | 全向但非完整 | 全息 |
| 定制零件 | 无 | 2个3D打印轮毂座 + 1根定制加工轴 |
改造仅需3个定制零件:
- 2个3D打印轮毂座:PLA材料,标准FDM 3D打印机即可制作
- 1根定制加工轴:可通过Xometry等在线机加工服务订购
其余所有零件直接复用市售套件。
2.3 硬件架构
2.3.1 核心组件
| 组件 | 规格 |
|---|---|
| 框架 | T-slot铝型材(可调尺寸和形状) |
| 驱动 | 4个电机化脚轮模块 |
| 供电(底盘) | SLA电池(密封铅酸电池,6kg) |
| 供电(计算+臂+外设) | 便携电站(768Wh,70分钟0-100%充电,8.6kg) |
| 计算 | Intel NUC迷你PC |
| 机械臂 | Kinova Gen3 7-DoF(12kg含安装板和电源) |
最后实物图如下:

双电池设计:底盘电机和计算/臂使用独立电池。虽然可设计电路统一供电以节省空间,但独立电池提供更大灵活性且设置更简便。SLA电池启动快,可在电压低时热替换。
配重设计:便携电站(8.6kg)和SLA电池(6kg)同时充当配重,防止底盘倾覆。
2.3.2 设计原则
-
研究灵活性:
- T-slot铝型材框架可轻松调整尺寸和形状
- 便携电站提供4个AC插座,可适配不同机械臂和计算设备
- 开源控制栈直至底层电机速度命令,研究者不受厂商API限制
-
可靠且易采购的零件:
- 驱动系统主要基于FRC生态零件(每年超80,000名竞赛参与者使用)
- 零件标准化、可在线购买、通常一周内送达
- 经竞赛严苛条件验证(125lb机器人高速运动+频繁碰撞)
- CAN驱动、电机控制、电池监控等核心软件组件均已包含
-
易于组装和维修:
- 1-2天完成组装
- T-slot框架组装约6小时
- 每个脚轮模块<30分钟组装(仅需手工工具)
- 3D打印轮毂座约2天
- 电气接线<30分钟,无需焊接
- 模块化设计,零件可在线购买直接替换
2.4 性能规格对比

关键优势:TidyBot++ 是唯一同时具备全息、全向、可换臂特性的平台,且成本最低。
2.5 里程计精度
使用亚毫米精度动作捕捉系统评估:
| 指标 | 精度 |
|---|---|
| 平移漂移 | <1 cm / m |
| 旋转漂移 | <1° / 360° |
高里程计精度使全息底盘可在位置模式下精确到达目标位姿 (x,y,θ)(x, y, \theta)(x,y,θ),实现高可重复性。
2.6 手机遥操作接口
2.6.1 技术方案
基于 WebXR API 实现手机遥操作:
- 实时流式传输手机6自由度位姿到计算机
- 计算机将手机运动映射为底盘或机械臂的对应运动
- WebXR在大多数现代Android和iOS手机上均受支持,无需购买专用遥操作设备
2.6.2 与现有方案的对比
| 方案 | 局限性 |
|---|---|
| Oculus控制器 | 需保持在IR接收器视野内,出视野后可能产生意外运动 |
| RoboTurk(仅IMU) | 存在漂移问题 |
| MART/MOMART | 同样存在漂移,未在真实机器人上验证 |
| Mobile ALOHA | 操作者固定在机器人后方,远离末端执行器,难以精确操控 |
| Dobb·E | 手持设备无法反馈动作是否运动学可行 |
WebXR优势:结合IMU数据与基于手机摄像头的视觉里程计,有效消除漂移。操作者可自由围绕场景走动,需要精度时可近距离操作。
2.7 模仿学习实验
2.7.1 策略学习
- 算法:Diffusion Policy(扩散策略)
- 训练轮次:500 epochs
- 评估:每个任务10次策略推演
2.7.2 任务与结果
| 任务 | 演示数量 | 成功率 |
|---|---|---|
| 打开冰箱 | 100 | 10/10 |
| 擦拭台面 | 50 | 9/10 |
| 装载洗碗机 | 50 | 7/10 |
| 取出垃圾 | 50 | 10/10 |
| 装载洗衣机 | 50 | 7/10 |
| 浇花 | 50 | 6/10 |
关键发现:虽然扩散策略通常需要200-300个演示,但50个演示已足以使机器人成功完成任务。
2.8 全息 vs 差速驱动对比实验
2.8.1 实验设计
在"擦拭台面"任务上进行头对头比较:
- 全息模式:正常使用全息底盘
- 差速模式:对期望底盘位姿施加非完整约束,然后计算速度命令发送给底盘
- 两种模式各采集50个演示,相同训练条件(500 epochs)
2.8.2 遥操作效率对比
| 指标 | 差速驱动 | 全息驱动 |
|---|---|---|
| 平均行驶距离 | 4.03m | 2.03m |
| 平均回合时长 | 65.2s | 27.4s |
全息底盘的行驶距离和时长均约为差速驱动的一半。
2.8.3 策略学习效果对比
| 底盘模式 | 成功率 |
|---|---|
| 全息驱动 | 9/10 |
| 差速驱动 | 4/10 |
差速驱动策略的主要失败模式:频繁跳过台面部分区域而非完整擦拭。原因分析:
- 学习问题本质上更难------策略不仅要学习擦拭动作,还必须学习类似侧方停车的复杂侧移策略
- 差速驱动的转向操作导致相机视野左右晃动,降低观测质量
- 全息底盘可保持稳定的前向相机视角
三、主要创新点与学术贡献
3.1 开源全息移动操作平台
创新点:提出首个低成本($5-6k)、全息、可换臂的开源移动操作平台设计。
学术贡献:
- 填补了移动操作研究硬件的空白------现有商用底盘要么昂贵(Fetch 100k, Tiago 100k),要么非完整(Stretch, Mobile ALOHA),要么不可换臂
- 通过动力脚轮机制实现真正的全息运动,而非麦克纳姆轮的"伪全息"(振动大、抓地力差、越障弱)
- 全开源:硬件设计、遥操作接口、策略学习框架、底层控制器,配合BOM、组装视频、3D CAD文件
3.2 动力脚轮运动学设计与最小化改造
创新点:在市售FRC swerve模块基础上,仅通过3个定制零件(2个3D打印件 + 1根加工轴)引入脚轮偏移,将非完整的swerve模块改造为全息的caster模块。
学术贡献:
- 极大降低了全息底盘的构建门槛------无需从零设计脚轮
- 利用FRC生态的成熟零件供应链,确保零件可靠、易购、价廉
- 二维偏移量(bx,byb_x, b_ybx,by)的运动学建模,处理了设计简化带来的偏移量非对称问题
3.3 全息驱动对模仿学习的系统性优势验证
创新点:首次通过严格的对比实验,定量验证全息驱动相对于差速驱动在遥操作效率和策略学习效果上的优势。
学术贡献:
- 遥操作效率:全息底盘行驶距离和时长约为差速驱动的一半
- 策略学习:相同数据量下,全息策略成功率(9/10)远超差速策略(4/10)
- 位置模式控制:全息底盘可直接在位置空间指令,支持位置表示(比速度表示更稳定、噪声更低),而非完整底盘只能以速度模式控制
- 观测质量:全息底盘可保持稳定相机视角,差速驱动的转向操作导致相机晃动
3.4 基于WebXR的手机遥操作接口
创新点:基于WebXR API开发手机遥操作接口,结合IMU与视觉里程计消除漂移,跨平台兼容Android和iOS。
学术贡献:
- 无需购买专用遥操作设备
- 操作者可自由走动、近距离精确操控(对比Mobile ALOHA操作者固定在机器人后方)
- WebXR利用iPhone上的ARKit,同时支持Android,比仅限iOS的ARKit方案更通用
3.5 真实家庭环境验证
创新点:在真实公寓中完成6种家庭移动操作任务的自主策略执行。
学术贡献:
- 证明50个演示即可训练出有效的扩散策略(远少于通常所需的200-300个)
- 任务覆盖开冰箱、擦台面、装洗碗机、取垃圾、装洗衣机、浇花等多种典型家庭场景
- 遥操作可完成更丰富的任务:卸烤箱、摆餐桌、整理厨房/门厅/卧室/台面、装水壶、刷浴缸等
四、技术路线总结
设计目标:低成本、高机动性、易数据采集的移动操作研究平台
│
┌────┴────┐
│ │
硬件设计 遥操作接口
│ │
├─ 动力脚轮驱动 ├─ WebXR API
│ (4×电机化脚轮) │ (IMU + 视觉里程计)
├─ T-slot框架 ├─ 6-DoF位姿流
├─ 双电池供电 └─ 手机→底盘/臂映射
├─ FRC生态零件
└─ 3个定制零件
│ │
└──────┬───────┘
│
数据采集(遥操作演示)
│
模仿学习(Diffusion Policy)
│
真实家庭环境部署
├─ 6种自主任务(成功率6/10~10/10)
└─ 12+种遥操作任务
五、局限性与未来方向
-
回驱性不足:由于高转向齿轮比(12.8)和较小的脚轮偏移(14mm),底盘回驱(backdrive)阻力较大。已确认移除转向齿轮后可平滑回驱,但需定制零件,会降低开源设计的可及性。
-
脚轮偏移量受限:14mm的偏移量是设计简化的折衷,更大的偏移量可改善回驱性和运动性能,但需更多定制零件。
-
户外适用性有限:底盘设计面向室内使用,虽然实测可应对部分室外障碍(人行道、钢板、坡道、减速带),但非主要设计目标。
-
未来方向:
- 进一步优化机械设计以改善回驱性
- 扩展到更多家庭任务和更复杂的环境
- 结合大语言模型实现更高级的任务规划(如前作TidyBot)
- 推动社区基于该平台采集大规模移动操作数据集