论文笔记 | Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes

论文地址： Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes
概述： 本文提出 RGB-Stacking 基准测试 ，研究如何仅凭 RGB 摄像头视觉和本体感知，实现机器人对 复杂几何物体的高效堆叠 。通过结合仿真专家训练、交互式模仿学习与现实世界离线强化学习，提出的系统成功实现了 从仿真到现实世界的零样本迁移，展现出优秀的泛化能力与鲁棒性。

🎯 背景与动机

尽管近年来机器人抓取与操作任务取得显著进展，但多数研究依然局限于单一抓取任务或立方体等规则物体的堆叠场景。

然而，现实世界物体的堆叠任务通常面临：

不规则几何形状
不稳定接触动力学
多方向抓取与放置挑战

因此，本文旨在推动 从"拾取-放置"向"几何理解与策略堆叠"的迁移，设立更具挑战性的任务基准，并探索高效学习与迁移方法。

1️⃣ RGB-Stacking 基准测试设计

🧱 多样化物体集

共 152 个 程序生成 + 3D 打印物体
基于立方体的变形设计：
- 4 种主变形轴：多边形、梯形、矩形、平行四边形
- 组合变形物体用于训练集，主轴物体用于测试集

🧪 任务类型

技能掌握任务（Skill Mastery）
- 给定 5 对固定物体组合
- 需处理精细抓取、重心平衡、角度翻转等操作挑战
泛化任务（Generalization）
- 从训练物体学习策略，迁移到测试集中的全新物体组合

✅ 成功判定标准

红色物体堆叠于蓝色物体上
水平误差 < 3cm 、垂直距离 > 2.5cm
放置后夹爪完全打开

2️⃣ 方法总览：三阶段训练框架

阶段	内容	技术亮点
① 仿真训练专家策略	在仿真中训练状态专家策略	使用 MPO 强化学习算法；塑形奖励提升学习效率
② 视觉策略蒸馏	蒸馏专家策略至视觉策略	采用交互式模仿学习（IIL）；域随机化提升迁移鲁棒性
③ 离线强化学习优化	用现实数据进一步优化策略	BC-IMP 与 CRR-IMP 算法，提升堆叠成功率

✨ 亮点细节：

使用 Transformer 架构 表征视觉策略

设置 二进制夹爪动作（抓/放）简化学习难度

利用域随机化适应现实中变化的颜色、质感、光照等属性

3️⃣ 实验结果分析

💻 仿真实验

方法	技能掌握任务	泛化任务
人类遥操作	46.6%	-
脚本 Agent	43.1%	-
状态专家策略（MPO）	79.3%	68.8%
行为克隆（BC）	52.4%	-
交互模仿学习（IIL）	74.2%	-

✅ IIL 显著优于行为克隆：能通过交互纠正策略错误，学习更加稳健。

🤖 现实世界迁移

策略类型	技能掌握任务	泛化任务
零样本 IIL 策略	67.9%	51.9%
零样本 + 离线 RL（CRR-IMP）	81.6%	55.6%

🔍 关键影响因素：

使用 二进制夹爪动作：迁移成功率提升 3 倍（20.7% → 67.9%）

Transformer 架构 显著增强泛化能力

离线 RL 效果依赖于高质量数据（仿真迁移策略 > 脚本 Agent）

4️⃣ 关键发现与洞见

✅ 1. 仿真 → 现实零样本迁移是可行的

借助域随机化与 IIL，即使未在真实世界训练，策略依然能稳定迁移并完成任务。

✅ 2. 交互模仿学习优于纯行为克隆

引入 DAgger 风格的交互训练能及时纠正学生策略偏差，使视觉策略更强鲁棒性。

✅ 3. 离线 RL 可显著提升现实世界策略表现

CRR-IMP 能过滤低质量数据，通过优势函数重加权训练样本，有效提升成功率。

✅ 4. 设计细节影响巨大

夹爪控制方式简化了策略学习
Transformer 提升了复杂几何场景中的理解与泛化能力

❓关键问题答疑

Q1：RGB-Stacking 有何创新？

提供多样几何物体组合（152 个），覆盖真实场景复杂堆叠需求
超过 5 万次现实评估，远超以往任务规模
兼顾技能掌握与策略泛化两大挑战

Q2：为何能实现仿真到现实的零样本迁移？

域随机化模拟多样现实视觉与物理属性
IIL 框架主动纠正错误，提升策略稳定性
简化控制动作空间，降低迁移难度

Q3：离线强化学习为什么有效？

基于仿真迁移策略收集的数据覆盖更多复杂策略
CRR-IMP 利用优势函数过滤低效策略，专注高价值行为

✍️ 总结

RGB-Stacking 基准和三阶段策略训练系统展示了机器人在复杂几何场景中实现高效、鲁棒、可泛化堆叠的可能性。该研究为"从仿真到现实"的策略迁移，以及融合视觉与交互式学习的方法，提供了清晰且有效的路径。这项工作不仅扩展了堆叠任务的研究范围，也为后续研究提供了 高难度评测平台与可复现的训练范式。