【论文阅读】Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

【论文阅读】Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

1 团队与发表时间

  • 团队:斯坦福大学(Tony Z. Zhao, Chelsea Finn)、加州大学伯克利分校(Sergey Levine)以及 Meta(Vikash Kumar)的研究人员组成

  • 发表时间:该论文于 2023 年 4 月 23 日发布于 arXiv

  • 阅读建议:该论文不是一篇纯算法论文,而是硬件+算法。

2 问题背景和核心思路

  • 问题背景:

    • 采集成本高:精细的双手操作任务(如穿束带、装电池)对机器人而言极具挑战,通常需要昂贵的机器人、高精度传感器和复杂的校准。低成本硬件精度较低,这使得感知和规划更加困难。
    • 非马尔可夫性:人在操作机器人时会有停顿、犹豫或由于摄像头视角导致的遮挡。
      • 人的动作犹豫通常是因为需要一段时间,来观察一下场景。这意味着未来动作其实并不依赖于当前状态,也依赖历史状态。这就是非马尔可夫性。
  • 核心思路:

    • 硬件上:通过低成本的现成组件和 3D 打印件,构建一个能够收集高质量人体演示数据的遥操作平台(ALOHA)。
    • 算法上:针对模仿学习中常见的"复合误差"和非马尔可夫行为(如演示中的停顿),提出动作分块 (Action Chunking)思路。即让模型一次预测未来 k k k 步的动作序列,而不是单步预测,从而降低任务的有效步长并提高平滑度。

3 具体方案

3.1 模型方案 (ACT)

  • 架构:基于 Transformer 架构,并将其训练为条件变分自编码器 (CVAE)

  • 编码器:在训练阶段,CVAE 编码器将动作序列和关节观测值压缩成一个潜在变量 z z z(样式变量),用于捕捉人类演示中的变异性

  • 解码器(策略):以当前多视角图像、关节位置以及 z z z 为输入,通过 Transformer 编码器处理观测,再由 Transformer 解码器预测未来 k k k 个步长的目标关节位置序列。

    • 注意,之前的方案都是单步策略(single-step policy),即只输出当前动作,而不会输出未来多个动作。而ACT创新性地使用了多步策略(multi-step policy),后续的论文(pi,GR00T等)均延续了这样的做法。
      • 在单步策略下,为了解决非马尔可夫性,需要输入历史帧。但是历史帧会导致因果困惑(causal confusion),这往往会让模型产生误判,比如它可能学会了"因为我刚才没动,所以我现在也不该动",从而导致机器人无限期地停留在原地。
  • 时间集成(Temporal Ensembling):为了提高动作的平滑度,模型在每个时间步都会预测一个动作块,并对重叠部分的预测值进行加权平均。

    • Temporal Ensembling的名称来历:
      • Ensemble(集成):在机器学习中(如随机森林、集成学习),"集成"指的是将多个模型(或同一个模型多次)的预测结果结合起来,以获得比单一预测更好的性能。
      • Temporal(时间的/时序的):在 ACT 中,这些被用来结合的预测结果并不是来自不同的模型,而是来自不同时间步发出的预测。
    • 做法
      • 模型对 t t t 时刻的最终动作执行是通过对所有包含 t t t 时刻的预测块进行加权平均得到的。权重 w w w 的计算方式如下: w i = exp ⁡ ( − m ⋅ i ) w_i = \exp(-m \cdot i) wi=exp(−m⋅i)
      • 实际计算动作 a t a_t at 时,系统会将所有参与计算的权重进行归一化,确保它们的总和为 1: a t f i n a l = ∑ i = 0 k w i ⋅ a t ( i ) ∑ i = 0 k w i a_t^{final} = \frac{\sum_{i=0}^{k} w_i \cdot a_t^{(i)}}{\sum_{i=0}^{k} w_i} atfinal=∑i=0kwi∑i=0kwi⋅at(i)其中 a t ( i ) a_t^{(i)} at(i) 是第 i i i 个预测块对 t t t 时刻给出的动作建议。

ACT如何解决累计误差和非马尔可夫性?

  • 将停顿"封装"在块内:当模型预测一个长达 100 步的动作序列时,这个序列内部可以自然地包含"先停顿 10 步,再快速移动 90 步"的信息

  • 降低有效步长:通过分块,原本需要几千步才能完成的任务,在模型的视角下变成了几十个"块"的衔接。 这使得模型更容易捕捉到宏观的任务逻辑(如"抓取"、"插入"),而不是纠结于某一瞬间的微小抖动

为什么之后的论文不用CVAE框架了?

CVAE 的作用是解决数据的多峰性(Multimodality)。比如:同一个杯子,人演示时有时从左边抓,有时从右边抓。如果不加 CVAE(潜在变量 z z z),模型可能会把两种路径取平均值,导致机器人直冲杯子中间撞上去。但在后来的 Pi-0 或 RT-2 等大模型中,CVAE 被弃用或替换,是因为扩散模型(Diffusion Policy)的崛起:基于 Diffusion 的策略天然就能处理多峰分布,不需要像 CVAE 那样显式地编码一个"样式变量 z z z"。

3.2 数据方案 (ALOHA)

  • 硬件组成:包含两台 ViperX 6自由度机器人手臂作为执行端(follower),以及两台较小的 WidowX 手臂作为操作端(leader)
  • 交互方式:采用直接关节空间映射,用户通过推动操作端手臂来遥操作执行端,这种方式比视觉/VR 控制更稳定且延迟更低。
  • 感知系统:配备 4 个网络摄像头(1个顶部、1个正面、2个手腕处),记录 480x640 的 RGB 图像 。
  • 数据采集:每项任务通常收集 50 次左右的人类演示,总计约 10-20 分钟的数据 。

4 实验效果任务表现

  • ACT 在 6 项极具挑战性的真实任务中表现出色,例如打开半透明调料杯(84% 成功率)和插电池(96% 成功率)。
  • 基准对比:相比于之前的模仿学习算法(如 BeT, RT-1, VINN),ACT 在多项任务中将成功率从接近 0% 提升到了 80% 以上 。
  • 消融实验:实验证明,动作分块(Chunking)对提升性能至关重要;同时,在处理人类演示数据时,CVAE 目标对于应对数据的多峰性和噪声必不可少。

5 结论

研究表明,通过结合高性能的遥操作硬件和能够处理高频、精确反馈的模仿学习算法,低成本机器人也能完成复杂的精细操作任务。ACT 算法成功解决了模仿学习中的复合误差问题,为低成本通用机器人的普及提供了可能 。

6 Key insight

  • 50Hz 的高频控制对于精细操作任务至关重要。实验表明,如果将频率降至 5Hz,操作速度会慢 62%,且任务难度显著增加。
  • 多步预测能解决累计误差和非马尔可夫性,所以成为了后来的基本方案。

另外,CVAE被diffusion和flow matching取代;Temproal Ensembling被RTC(Real time chunking)取代了。

相关推荐
AustinCyy18 小时前
【论文笔记】Guiding Generative Storytelling with Knowledge Graphs
论文阅读·人工智能·知识图谱
智算菩萨18 小时前
【Generative AI For Autonomous Driving】5 生成式AI在自动驾驶中的六大应用场景:从数据合成到智慧交通
论文阅读·人工智能·机器学习·ai·自动驾驶·感知
智算菩萨18 小时前
【Generative AI For Autonomous Driving】6 生成式AI在具身智能领域的拓展:从自动驾驶到通用机器人的技术迁移
论文阅读·人工智能·机器学习·ai·机器人·自动驾驶
wuxuand18 小时前
2025论文阅读-TSCMamba如何用“多视角”和“探戈舞步”提升分类精度?
论文阅读
智算菩萨18 小时前
ChatGPT在非洲主要国家教育中的应用:效益、接受度与伦理挑战——基于2022-2024年文献的系统综述精读
论文阅读·人工智能·gpt·深度学习·ai·chatgpt·论文笔记
智算菩萨21 小时前
【Generative AI For Autonomous Driving】4 自动驾驶生成式模型前沿实战——从图像合成到多模态大模型的技术全景解析
论文阅读·人工智能·深度学习·机器学习·ai·自动驾驶
智算菩萨1 天前
【How Far Are We From AGI】3 AGI的边界扩张——数字、物理与智能三重接口的技术实现与伦理困境
论文阅读·人工智能·深度学习·ai·agi
智算菩萨1 天前
【How Far Are We From AGI】6 AGI的进化论——从胚胎到终极的三级跃迁与发展路线图
论文阅读·人工智能·深度学习·ai·agi
智算菩萨1 天前
【How Far Are We From AGI】7 AGI的七重奏——从实验室到现实世界的应用图景与文明展望
论文阅读·人工智能·ai·agi·感知
智算菩萨1 天前
多目标超启发式算法系统文献综述:人机协同大语言模型方法论深度精读
论文阅读·人工智能·深度学习·ai·多目标·综述