【论文阅读】Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

【论文阅读】Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

1 团队与发表时间

  • 团队:斯坦福大学(Tony Z. Zhao, Chelsea Finn)、加州大学伯克利分校(Sergey Levine)以及 Meta(Vikash Kumar)的研究人员组成

  • 发表时间:该论文于 2023 年 4 月 23 日发布于 arXiv

  • 阅读建议:该论文不是一篇纯算法论文,而是硬件+算法。

2 问题背景和核心思路

  • 问题背景:

    • 采集成本高:精细的双手操作任务(如穿束带、装电池)对机器人而言极具挑战,通常需要昂贵的机器人、高精度传感器和复杂的校准。低成本硬件精度较低,这使得感知和规划更加困难。
    • 非马尔可夫性:人在操作机器人时会有停顿、犹豫或由于摄像头视角导致的遮挡。
      • 人的动作犹豫通常是因为需要一段时间,来观察一下场景。这意味着未来动作其实并不依赖于当前状态,也依赖历史状态。这就是非马尔可夫性。
  • 核心思路:

    • 硬件上:通过低成本的现成组件和 3D 打印件,构建一个能够收集高质量人体演示数据的遥操作平台(ALOHA)。
    • 算法上:针对模仿学习中常见的"复合误差"和非马尔可夫行为(如演示中的停顿),提出动作分块 (Action Chunking)思路。即让模型一次预测未来 k k k 步的动作序列,而不是单步预测,从而降低任务的有效步长并提高平滑度。

3 具体方案

3.1 模型方案 (ACT)

  • 架构:基于 Transformer 架构,并将其训练为条件变分自编码器 (CVAE)

  • 编码器:在训练阶段,CVAE 编码器将动作序列和关节观测值压缩成一个潜在变量 z z z(样式变量),用于捕捉人类演示中的变异性

  • 解码器(策略):以当前多视角图像、关节位置以及 z z z 为输入,通过 Transformer 编码器处理观测,再由 Transformer 解码器预测未来 k k k 个步长的目标关节位置序列。

    • 注意,之前的方案都是单步策略(single-step policy),即只输出当前动作,而不会输出未来多个动作。而ACT创新性地使用了多步策略(multi-step policy),后续的论文(pi,GR00T等)均延续了这样的做法。
      • 在单步策略下,为了解决非马尔可夫性,需要输入历史帧。但是历史帧会导致因果困惑(causal confusion),这往往会让模型产生误判,比如它可能学会了"因为我刚才没动,所以我现在也不该动",从而导致机器人无限期地停留在原地。
  • 时间集成(Temporal Ensembling):为了提高动作的平滑度,模型在每个时间步都会预测一个动作块,并对重叠部分的预测值进行加权平均。

    • Temporal Ensembling的名称来历:
      • Ensemble(集成):在机器学习中(如随机森林、集成学习),"集成"指的是将多个模型(或同一个模型多次)的预测结果结合起来,以获得比单一预测更好的性能。
      • Temporal(时间的/时序的):在 ACT 中,这些被用来结合的预测结果并不是来自不同的模型,而是来自不同时间步发出的预测。
    • 做法
      • 模型对 t t t 时刻的最终动作执行是通过对所有包含 t t t 时刻的预测块进行加权平均得到的。权重 w w w 的计算方式如下: w i = exp ⁡ ( − m ⋅ i ) w_i = \exp(-m \cdot i) wi=exp(−m⋅i)
      • 实际计算动作 a t a_t at 时,系统会将所有参与计算的权重进行归一化,确保它们的总和为 1: a t f i n a l = ∑ i = 0 k w i ⋅ a t ( i ) ∑ i = 0 k w i a_t^{final} = \frac{\sum_{i=0}^{k} w_i \cdot a_t^{(i)}}{\sum_{i=0}^{k} w_i} atfinal=∑i=0kwi∑i=0kwi⋅at(i)其中 a t ( i ) a_t^{(i)} at(i) 是第 i i i 个预测块对 t t t 时刻给出的动作建议。

ACT如何解决累计误差和非马尔可夫性?

  • 将停顿"封装"在块内:当模型预测一个长达 100 步的动作序列时,这个序列内部可以自然地包含"先停顿 10 步,再快速移动 90 步"的信息

  • 降低有效步长:通过分块,原本需要几千步才能完成的任务,在模型的视角下变成了几十个"块"的衔接。 这使得模型更容易捕捉到宏观的任务逻辑(如"抓取"、"插入"),而不是纠结于某一瞬间的微小抖动

为什么之后的论文不用CVAE框架了?

CVAE 的作用是解决数据的多峰性(Multimodality)。比如:同一个杯子,人演示时有时从左边抓,有时从右边抓。如果不加 CVAE(潜在变量 z z z),模型可能会把两种路径取平均值,导致机器人直冲杯子中间撞上去。但在后来的 Pi-0 或 RT-2 等大模型中,CVAE 被弃用或替换,是因为扩散模型(Diffusion Policy)的崛起:基于 Diffusion 的策略天然就能处理多峰分布,不需要像 CVAE 那样显式地编码一个"样式变量 z z z"。

3.2 数据方案 (ALOHA)

  • 硬件组成:包含两台 ViperX 6自由度机器人手臂作为执行端(follower),以及两台较小的 WidowX 手臂作为操作端(leader)
  • 交互方式:采用直接关节空间映射,用户通过推动操作端手臂来遥操作执行端,这种方式比视觉/VR 控制更稳定且延迟更低。
  • 感知系统:配备 4 个网络摄像头(1个顶部、1个正面、2个手腕处),记录 480x640 的 RGB 图像 。
  • 数据采集:每项任务通常收集 50 次左右的人类演示,总计约 10-20 分钟的数据 。

4 实验效果任务表现

  • ACT 在 6 项极具挑战性的真实任务中表现出色,例如打开半透明调料杯(84% 成功率)和插电池(96% 成功率)。
  • 基准对比:相比于之前的模仿学习算法(如 BeT, RT-1, VINN),ACT 在多项任务中将成功率从接近 0% 提升到了 80% 以上 。
  • 消融实验:实验证明,动作分块(Chunking)对提升性能至关重要;同时,在处理人类演示数据时,CVAE 目标对于应对数据的多峰性和噪声必不可少。

5 结论

研究表明,通过结合高性能的遥操作硬件和能够处理高频、精确反馈的模仿学习算法,低成本机器人也能完成复杂的精细操作任务。ACT 算法成功解决了模仿学习中的复合误差问题,为低成本通用机器人的普及提供了可能 。

6 Key insight

  • 50Hz 的高频控制对于精细操作任务至关重要。实验表明,如果将频率降至 5Hz,操作速度会慢 62%,且任务难度显著增加。
  • 多步预测能解决累计误差和非马尔可夫性,所以成为了后来的基本方案。

另外,CVAE被diffusion和flow matching取代;Temproal Ensembling被RTC(Real time chunking)取代了。

相关推荐
m0_6501082413 小时前
WorldSplat:面向自动驾驶的 4D 场景生成与新颖视图合成框架
论文阅读·自动驾驶·高保真·时空一致性·4d驾驶场景合成·生成式与重建式融合·4d高斯
小明_GLC13 小时前
Timer-XL: Long-Context Transformers For Unified Time Series Forecasting 时序论文阅读
论文阅读
小明_GLC14 小时前
Improving Time Series Forecasting via Instance-aware Post-hoc Revision时序论文阅读
论文阅读
小明_GLC14 小时前
Timer : Transformers for Time Series Analysis at Scale 时序论文阅读
论文阅读
EEPI14 小时前
【论文阅读】Steering Your Diffusion Policy with Latent Space Reinforcement Learning
论文阅读
学海一叶17 小时前
论文精读-《ReAct: Synergizing Reasoning and Acting in Language Models》,2022
论文阅读·人工智能·语言模型·动态规划·agent
一碗白开水一1 天前
【论文阅读】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
论文阅读·数码相机
m0_650108242 天前
Gaussian Splatting SLAM:单目实时高保真 3D 重建的突破性进展
论文阅读·单目slam·3d 高斯溅射·解析雅可比位姿优化·统一的3d高斯表示·实时高保真单目3d重建
MoonOutCloudBack2 天前
CAGrad:保证收敛到平均损失最小的多任务梯度算法
论文阅读·人工智能·深度学习·机器学习·多任务