论文笔记 | Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes

论文地址: Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes
概述: 本文提出 RGB-Stacking 基准测试 ,研究如何仅凭 RGB 摄像头视觉和本体感知,实现机器人对 复杂几何物体的高效堆叠 。通过结合仿真专家训练、交互式模仿学习与现实世界离线强化学习,提出的系统成功实现了 从仿真到现实世界的零样本迁移,展现出优秀的泛化能力与鲁棒性。


🎯 背景与动机

尽管近年来机器人抓取与操作任务取得显著进展,但多数研究依然局限于单一抓取任务或立方体等规则物体的堆叠场景。

然而,现实世界物体的堆叠任务通常面临:

  • 不规则几何形状

  • 不稳定接触动力学

  • 多方向抓取与放置挑战

因此,本文旨在推动 从"拾取-放置"向"几何理解与策略堆叠"的迁移,设立更具挑战性的任务基准,并探索高效学习与迁移方法。


1️⃣ RGB-Stacking 基准测试设计

🧱 多样化物体集

  • 共 152 个 程序生成 + 3D 打印物体

  • 基于立方体的变形设计:

    • 4 种主变形轴:多边形、梯形、矩形、平行四边形

    • 组合变形物体用于训练集,主轴物体用于测试集

🧪 任务类型

  1. 技能掌握任务(Skill Mastery)

    • 给定 5 对固定物体组合

    • 需处理精细抓取、重心平衡、角度翻转等操作挑战

  2. 泛化任务(Generalization)

    • 从训练物体学习策略,迁移到测试集中的全新物体组合

✅ 成功判定标准

  • 红色物体堆叠于蓝色物体上

  • 水平误差 < 3cm垂直距离 > 2.5cm

  • 放置后夹爪完全打开


2️⃣ 方法总览:三阶段训练框架

阶段 内容 技术亮点
① 仿真训练专家策略 在仿真中训练状态专家策略 使用 MPO 强化学习算法;塑形奖励提升学习效率
② 视觉策略蒸馏 蒸馏专家策略至视觉策略 采用交互式模仿学习(IIL);域随机化提升迁移鲁棒性
③ 离线强化学习优化 用现实数据进一步优化策略 BC-IMP 与 CRR-IMP 算法,提升堆叠成功率

亮点细节:

  • 使用 Transformer 架构 表征视觉策略

  • 设置 二进制夹爪动作(抓/放)简化学习难度

  • 利用域随机化适应现实中变化的颜色、质感、光照等属性


3️⃣ 实验结果分析

💻 仿真实验

方法 技能掌握任务 泛化任务
人类遥操作 46.6% -
脚本 Agent 43.1% -
状态专家策略(MPO) 79.3% 68.8%
行为克隆(BC) 52.4% -
交互模仿学习(IIL) 74.2% -

✅ IIL 显著优于行为克隆:能通过交互纠正策略错误,学习更加稳健。

🤖 现实世界迁移

策略类型 技能掌握任务 泛化任务
零样本 IIL 策略 67.9% 51.9%
零样本 + 离线 RL(CRR-IMP) 81.6% 55.6%

🔍 关键影响因素:

  • 使用 二进制夹爪动作:迁移成功率提升 3 倍(20.7% → 67.9%)

  • Transformer 架构 显著增强泛化能力

  • 离线 RL 效果依赖于高质量数据(仿真迁移策略 > 脚本 Agent)


4️⃣ 关键发现与洞见

✅ 1. 仿真 → 现实零样本迁移是可行的

借助域随机化与 IIL,即使未在真实世界训练,策略依然能稳定迁移并完成任务。

✅ 2. 交互模仿学习优于纯行为克隆

引入 DAgger 风格的交互训练能及时纠正学生策略偏差,使视觉策略更强鲁棒性。

✅ 3. 离线 RL 可显著提升现实世界策略表现

CRR-IMP 能过滤低质量数据,通过优势函数重加权训练样本,有效提升成功率。

✅ 4. 设计细节影响巨大

  • 夹爪控制方式简化了策略学习

  • Transformer 提升了复杂几何场景中的理解与泛化能力


❓关键问题答疑

Q1:RGB-Stacking 有何创新?

  • 提供多样几何物体组合(152 个),覆盖真实场景复杂堆叠需求

  • 超过 5 万次现实评估,远超以往任务规模

  • 兼顾技能掌握与策略泛化两大挑战

Q2:为何能实现仿真到现实的零样本迁移?

  • 域随机化模拟多样现实视觉与物理属性

  • IIL 框架主动纠正错误,提升策略稳定性

  • 简化控制动作空间,降低迁移难度

Q3:离线强化学习为什么有效?

  • 基于仿真迁移策略收集的数据覆盖更多复杂策略

  • CRR-IMP 利用优势函数过滤低效策略,专注高价值行为


✍️ 总结

RGB-Stacking 基准和三阶段策略训练系统展示了机器人在复杂几何场景中实现高效、鲁棒、可泛化堆叠的可能性。该研究为"从仿真到现实"的策略迁移,以及融合视觉与交互式学习的方法,提供了清晰且有效的路径。这项工作不仅扩展了堆叠任务的研究范围,也为后续研究提供了 高难度评测平台与可复现的训练范式

相关推荐
WWZZ202520 小时前
快速上手大模型:深度学习12(目标检测、语义分割、序列模型)
深度学习·算法·目标检测·计算机视觉·机器人·大模型·具身智能
ModestCoder_3 天前
ROS Bag与导航数据集技术指南
开发语言·人工智能·自然语言处理·机器人·具身智能
m0_650108244 天前
PaLM-E:具身智能的多模态语言模型新范式
论文阅读·人工智能·机器人·具身智能·多模态大语言模型·palm-e·大模型驱动
WWZZ20255 天前
快速上手大模型:深度学习13(文本预处理、语言模型、RNN、GRU、LSTM、seq2seq)
人工智能·深度学习·算法·语言模型·自然语言处理·大模型·具身智能
ModestCoder_5 天前
PPO-clip算法在Gymnasium的Pendulum环境实现
人工智能·算法·机器人·具身智能
WWZZ20256 天前
快速上手大模型:深度学习11(数据增强、微调、目标检测)
人工智能·深度学习·算法·目标检测·计算机视觉·大模型·具身智能
WWZZ20258 天前
快速上手大模型:深度学习5(实践:过、欠拟合)
人工智能·深度学习·神经网络·算法·机器人·大模型·具身智能
WWZZ20258 天前
快速上手大模型:深度学习10(卷积神经网络2、模型训练实践、批量归一化)
人工智能·深度学习·神经网络·算法·机器人·大模型·具身智能
WWZZ20259 天前
快速上手大模型:深度学习9(池化层、卷积神经网络1)
人工智能·深度学习·神经网络·算法·机器人·大模型·具身智能
具身新纪元9 天前
AAAI 2026 Oral | 清华SpatialActor:解耦语义与几何的机器人操控新框架
机器人·清华·具身智能