【论文阅读】Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
- [1 团队与发表时间](#1 团队与发表时间)
- [2 问题背景和核心思路](#2 问题背景和核心思路)
- [3 具体方案](#3 具体方案)
-
- [3.1 模型方案 (ACT)](#3.1 模型方案 (ACT))
- [3.2 数据方案 (ALOHA)](#3.2 数据方案 (ALOHA))
- [4 实验效果任务表现](#4 实验效果任务表现)
- [5 结论](#5 结论)
- [6 Key insight](#6 Key insight)
1 团队与发表时间
-
团队:斯坦福大学(Tony Z. Zhao, Chelsea Finn)、加州大学伯克利分校(Sergey Levine)以及 Meta(Vikash Kumar)的研究人员组成
-
发表时间:该论文于 2023 年 4 月 23 日发布于 arXiv
-
阅读建议:该论文不是一篇纯算法论文,而是硬件+算法。
2 问题背景和核心思路
-
问题背景:
- 采集成本高:精细的双手操作任务(如穿束带、装电池)对机器人而言极具挑战,通常需要昂贵的机器人、高精度传感器和复杂的校准。低成本硬件精度较低,这使得感知和规划更加困难。
- 非马尔可夫性:人在操作机器人时会有停顿、犹豫或由于摄像头视角导致的遮挡。
- 人的动作犹豫通常是因为需要一段时间,来观察一下场景。这意味着未来动作其实并不依赖于当前状态,也依赖历史状态。这就是非马尔可夫性。
-
核心思路:
- 硬件上:通过低成本的现成组件和 3D 打印件,构建一个能够收集高质量人体演示数据的遥操作平台(ALOHA)。
- 算法上:针对模仿学习中常见的"复合误差"和非马尔可夫行为(如演示中的停顿),提出动作分块 (Action Chunking)思路。即让模型一次预测未来 k k k 步的动作序列,而不是单步预测,从而降低任务的有效步长并提高平滑度。
3 具体方案

3.1 模型方案 (ACT)
-
架构:基于 Transformer 架构,并将其训练为条件变分自编码器 (CVAE)
-
编码器:在训练阶段,CVAE 编码器将动作序列和关节观测值压缩成一个潜在变量 z z z(样式变量),用于捕捉人类演示中的变异性
-
解码器(策略):以当前多视角图像、关节位置以及 z z z 为输入,通过 Transformer 编码器处理观测,再由 Transformer 解码器预测未来 k k k 个步长的目标关节位置序列。
- 注意,之前的方案都是单步策略(single-step policy),即只输出当前动作,而不会输出未来多个动作。而ACT创新性地使用了多步策略(multi-step policy),后续的论文(pi,GR00T等)均延续了这样的做法。
- 在单步策略下,为了解决非马尔可夫性,需要输入历史帧。但是历史帧会导致因果困惑(causal confusion),这往往会让模型产生误判,比如它可能学会了"因为我刚才没动,所以我现在也不该动",从而导致机器人无限期地停留在原地。
- 注意,之前的方案都是单步策略(single-step policy),即只输出当前动作,而不会输出未来多个动作。而ACT创新性地使用了多步策略(multi-step policy),后续的论文(pi,GR00T等)均延续了这样的做法。
-
时间集成(Temporal Ensembling):为了提高动作的平滑度,模型在每个时间步都会预测一个动作块,并对重叠部分的预测值进行加权平均。
- Temporal Ensembling的名称来历:
- Ensemble(集成):在机器学习中(如随机森林、集成学习),"集成"指的是将多个模型(或同一个模型多次)的预测结果结合起来,以获得比单一预测更好的性能。
- Temporal(时间的/时序的):在 ACT 中,这些被用来结合的预测结果并不是来自不同的模型,而是来自不同时间步发出的预测。
- 做法
- 模型对 t t t 时刻的最终动作执行是通过对所有包含 t t t 时刻的预测块进行加权平均得到的。权重 w w w 的计算方式如下: w i = exp ( − m ⋅ i ) w_i = \exp(-m \cdot i) wi=exp(−m⋅i)
- 实际计算动作 a t a_t at 时,系统会将所有参与计算的权重进行归一化,确保它们的总和为 1: a t f i n a l = ∑ i = 0 k w i ⋅ a t ( i ) ∑ i = 0 k w i a_t^{final} = \frac{\sum_{i=0}^{k} w_i \cdot a_t^{(i)}}{\sum_{i=0}^{k} w_i} atfinal=∑i=0kwi∑i=0kwi⋅at(i)其中 a t ( i ) a_t^{(i)} at(i) 是第 i i i 个预测块对 t t t 时刻给出的动作建议。
- Temporal Ensembling的名称来历:
ACT如何解决累计误差和非马尔可夫性?
-
将停顿"封装"在块内:当模型预测一个长达 100 步的动作序列时,这个序列内部可以自然地包含"先停顿 10 步,再快速移动 90 步"的信息
-
降低有效步长:通过分块,原本需要几千步才能完成的任务,在模型的视角下变成了几十个"块"的衔接。 这使得模型更容易捕捉到宏观的任务逻辑(如"抓取"、"插入"),而不是纠结于某一瞬间的微小抖动
为什么之后的论文不用CVAE框架了?
CVAE 的作用是解决数据的多峰性(Multimodality)。比如:同一个杯子,人演示时有时从左边抓,有时从右边抓。如果不加 CVAE(潜在变量 z z z),模型可能会把两种路径取平均值,导致机器人直冲杯子中间撞上去。但在后来的 Pi-0 或 RT-2 等大模型中,CVAE 被弃用或替换,是因为扩散模型(Diffusion Policy)的崛起:基于 Diffusion 的策略天然就能处理多峰分布,不需要像 CVAE 那样显式地编码一个"样式变量 z z z"。
3.2 数据方案 (ALOHA)
- 硬件组成:包含两台 ViperX 6自由度机器人手臂作为执行端(follower),以及两台较小的 WidowX 手臂作为操作端(leader)
- 交互方式:采用直接关节空间映射,用户通过推动操作端手臂来遥操作执行端,这种方式比视觉/VR 控制更稳定且延迟更低。
- 感知系统:配备 4 个网络摄像头(1个顶部、1个正面、2个手腕处),记录 480x640 的 RGB 图像 。
- 数据采集:每项任务通常收集 50 次左右的人类演示,总计约 10-20 分钟的数据 。
4 实验效果任务表现
- ACT 在 6 项极具挑战性的真实任务中表现出色,例如打开半透明调料杯(84% 成功率)和插电池(96% 成功率)。
- 基准对比:相比于之前的模仿学习算法(如 BeT, RT-1, VINN),ACT 在多项任务中将成功率从接近 0% 提升到了 80% 以上 。
- 消融实验:实验证明,动作分块(Chunking)对提升性能至关重要;同时,在处理人类演示数据时,CVAE 目标对于应对数据的多峰性和噪声必不可少。
5 结论
研究表明,通过结合高性能的遥操作硬件和能够处理高频、精确反馈的模仿学习算法,低成本机器人也能完成复杂的精细操作任务。ACT 算法成功解决了模仿学习中的复合误差问题,为低成本通用机器人的普及提供了可能 。
6 Key insight
- 50Hz 的高频控制对于精细操作任务至关重要。实验表明,如果将频率降至 5Hz,操作速度会慢 62%,且任务难度显著增加。
- 多步预测能解决累计误差和非马尔可夫性,所以成为了后来的基本方案。
另外,CVAE被diffusion和flow matching取代;Temproal Ensembling被RTC(Real time chunking)取代了。