【论文阅读】Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

[1 团队与发表时间](#1 团队与发表时间)
[2 问题背景和核心思路](#2 问题背景和核心思路)
[3 具体方案](#3 具体方案)
- [3.1 模型方案 (ACT)](#3.1 模型方案 (ACT))
- - ACT如何解决累计误差和非马尔可夫性？
  - 为什么之后的论文不用CVAE框架了？
- [3.2 数据方案 (ALOHA)](#3.2 数据方案 (ALOHA))
[4 实验效果任务表现](#4 实验效果任务表现)
[5 结论](#5 结论)
[6 Key insight](#6 Key insight)

1 团队与发表时间

团队：斯坦福大学（Tony Z. Zhao, Chelsea Finn）、加州大学伯克利分校（Sergey Levine）以及 Meta（Vikash Kumar）的研究人员组成
发表时间：该论文于 2023 年 4 月 23 日发布于 arXiv
阅读建议：该论文不是一篇纯算法论文，而是硬件+算法。

2 问题背景和核心思路

问题背景：
- 采集成本高：精细的双手操作任务（如穿束带、装电池）对机器人而言极具挑战，通常需要昂贵的机器人、高精度传感器和复杂的校准。低成本硬件精度较低，这使得感知和规划更加困难。
- 非马尔可夫性：人在操作机器人时会有停顿、犹豫或由于摄像头视角导致的遮挡。
  - 人的动作犹豫通常是因为需要一段时间，来观察一下场景。这意味着未来动作其实并不依赖于当前状态，也依赖历史状态。这就是非马尔可夫性。
核心思路：
- 硬件上：通过低成本的现成组件和 3D 打印件，构建一个能够收集高质量人体演示数据的遥操作平台（ALOHA）。
- 算法上：针对模仿学习中常见的"复合误差"和非马尔可夫行为（如演示中的停顿），提出动作分块 （Action Chunking）思路。即让模型一次预测未来 k k k 步的动作序列，而不是单步预测，从而降低任务的有效步长并提高平滑度。

3 具体方案

3.1 模型方案 (ACT)

架构：基于 Transformer 架构，并将其训练为条件变分自编码器 (CVAE)
编码器：在训练阶段，CVAE 编码器将动作序列和关节观测值压缩成一个潜在变量 z z z（样式变量），用于捕捉人类演示中的变异性
解码器（策略）：以当前多视角图像、关节位置以及 z z z 为输入，通过 Transformer 编码器处理观测，再由 Transformer 解码器预测未来 k k k 个步长的目标关节位置序列。
- 注意，之前的方案都是单步策略（single-step policy），即只输出当前动作，而不会输出未来多个动作。而ACT创新性地使用了多步策略（multi-step policy），后续的论文（pi，GR00T等）均延续了这样的做法。
  - 在单步策略下，为了解决非马尔可夫性，需要输入历史帧。但是历史帧会导致因果困惑（causal confusion），这往往会让模型产生误判，比如它可能学会了"因为我刚才没动，所以我现在也不该动"，从而导致机器人无限期地停留在原地。
时间集成（Temporal Ensembling）：为了提高动作的平滑度，模型在每个时间步都会预测一个动作块，并对重叠部分的预测值进行加权平均。
- Temporal Ensembling的名称来历：
  - Ensemble（集成）：在机器学习中（如随机森林、集成学习），"集成"指的是将多个模型（或同一个模型多次）的预测结果结合起来，以获得比单一预测更好的性能。
  - Temporal（时间的/时序的）：在 ACT 中，这些被用来结合的预测结果并不是来自不同的模型，而是来自不同时间步发出的预测。
- 做法
  - 模型对 t t t 时刻的最终动作执行是通过对所有包含 t t t 时刻的预测块进行加权平均得到的。权重 w w w 的计算方式如下： w i = exp ⁡ ( − m ⋅ i ) w_i = \exp(-m \cdot i) wi=exp(−m⋅i)
  - 实际计算动作 a t a_t at 时，系统会将所有参与计算的权重进行归一化，确保它们的总和为 1： a t f i n a l = ∑ i = 0 k w i ⋅ a t ( i ) ∑ i = 0 k w i a_t^{final} = \frac{\sum_{i=0}^{k} w_i \cdot a_t^{(i)}}{\sum_{i=0}^{k} w_i} atfinal=∑i=0kwi∑i=0kwi⋅at(i)其中 a t ( i ) a_t^{(i)} at(i) 是第 i i i 个预测块对 t t t 时刻给出的动作建议。

ACT如何解决累计误差和非马尔可夫性？

将停顿"封装"在块内：当模型预测一个长达 100 步的动作序列时，这个序列内部可以自然地包含"先停顿 10 步，再快速移动 90 步"的信息
降低有效步长：通过分块，原本需要几千步才能完成的任务，在模型的视角下变成了几十个"块"的衔接。这使得模型更容易捕捉到宏观的任务逻辑（如"抓取"、"插入"），而不是纠结于某一瞬间的微小抖动

为什么之后的论文不用CVAE框架了？

CVAE 的作用是解决数据的多峰性（Multimodality）。比如：同一个杯子，人演示时有时从左边抓，有时从右边抓。如果不加 CVAE（潜在变量 z z z），模型可能会把两种路径取平均值，导致机器人直冲杯子中间撞上去。但在后来的 Pi-0 或 RT-2 等大模型中，CVAE 被弃用或替换，是因为扩散模型（Diffusion Policy）的崛起：基于 Diffusion 的策略天然就能处理多峰分布，不需要像 CVAE 那样显式地编码一个"样式变量 z z z"。

3.2 数据方案 (ALOHA)

硬件组成：包含两台 ViperX 6自由度机器人手臂作为执行端（follower），以及两台较小的 WidowX 手臂作为操作端（leader）
交互方式：采用直接关节空间映射，用户通过推动操作端手臂来遥操作执行端，这种方式比视觉/VR 控制更稳定且延迟更低。
感知系统：配备 4 个网络摄像头（1个顶部、1个正面、2个手腕处），记录 480x640 的 RGB 图像。
数据采集：每项任务通常收集 50 次左右的人类演示，总计约 10-20 分钟的数据。

4 实验效果任务表现

ACT 在 6 项极具挑战性的真实任务中表现出色，例如打开半透明调料杯（84% 成功率）和插电池（96% 成功率）。
基准对比：相比于之前的模仿学习算法（如 BeT, RT-1, VINN），ACT 在多项任务中将成功率从接近 0% 提升到了 80% 以上。
消融实验：实验证明，动作分块（Chunking）对提升性能至关重要；同时，在处理人类演示数据时，CVAE 目标对于应对数据的多峰性和噪声必不可少。

5 结论

研究表明，通过结合高性能的遥操作硬件和能够处理高频、精确反馈的模仿学习算法，低成本机器人也能完成复杂的精细操作任务。ACT 算法成功解决了模仿学习中的复合误差问题，为低成本通用机器人的普及提供了可能。

6 Key insight

50Hz 的高频控制对于精细操作任务至关重要。实验表明，如果将频率降至 5Hz，操作速度会慢 62%，且任务难度显著增加。
多步预测能解决累计误差和非马尔可夫性，所以成为了后来的基本方案。

另外，CVAE被diffusion和flow matching取代；Temproal Ensembling被RTC（Real time chunking）取代了。