基于3D感知的端到端具身操作论文导读

DexIL：面向双臂灵巧手柔性操作的端到端具身执行模型

模型架构

输入：

观测Ot： RGB点云，使用PointNet进行编码;

状态St： 双臂末端7x2Dof位姿+16x2灵巧手关节位置，只进行归一化，无编码；
融合方式： 直接和点云特征进行concatenate组合。
输出： 未来d个时刻的动作（物理量与状态一样）
噪声预测网络： Unet
训练方式： Diffusion DDIM

实验

3D Diffuser Actor：基于3D感知引导的多任务具身执行大模型

摘要

我们把扩散策略和 3D 场景表示用在了机器人操作上。扩散策略通过条件扩散模型来学习基于机器人以及环境状态的动作分布。最近，它们被证明表现比确定性的还有其他基于状态条件的动作分布学习方法都要好。3D 机器人策略利用从单个或者多个摄像头视图通过感知深度聚合而来的 3D 场景特征表示。已经表明，在不同摄像头视角下，它们比 2D 的同类策略泛化能力更强。我们把这两方面的工作整合到一起，推出了 3D 扩散器执行者，这是一种神经策略架构，给它一个语言指令，它就能构建出视觉场景的 3D 表示，然后以此为条件，不断对机器人末端执行器的 3D 旋转和平移进行去噪。每次去噪迭代的时候，我们的模型把末端执行器的姿态估计表示成 3D 场景标记，并且通过用 3D 相对注意力对其他 3D 视觉和语言标记进行特征提取，来预测每个标记的 3D 平移和旋转误差。3D 扩散器执行者在 RLBench 上达到了新的顶尖水平，在多视图设置下比当前最顶尖水平的绝对性能提高了 16.3%，在单视图设置下提高了 13.1%。在 CALVIN 基准测试中，在零样本未见场景泛化的设置里，它和当前最顶尖水平相当。它在现实世界中，从少量的演示里也能发挥作用。我们对模型的架构设计选择做了消融研究，像 3D 场景特征化和 3D 相对注意力，结果表明这些都有助于泛化。我们的结果显示，3D 场景表示和强大的生成模型是从演示中让机器人高效学习的关键。

模型架构

输入：

图像编码器： CLIP ResNet50 2D image encoder

文本编码器： CLIP language encoder

自身信息： 机械臂末端位姿
输出动作： 末端位姿（6D旋转+3D位置）+1D夹爪闭合，可预测全部轨迹点，或者关键位姿。
关键位姿： 重要的中间末端位姿，可以表征轨迹，可以使用一些简单的启发来提取，比如夹爪开闭或者局部速度、加速度极值处。

实验（在RLBench和Calvin Benchmark上达到SOTA）

3D Diffusion Policy：通过简单的3D表示进行通用的视觉运动策略学习

摘要

解决的问题： 如何使得模仿学习可以仅使用少量数据来学习鲁棒泛化的技能？
3DP相较2DP的优点：

高效与有效性。DP3不仅具有更高的精度，而且在示例数量和训练步骤上显著减少。
泛化能力。DP3的3D特性使其在多个方面具有泛化能力：空间、视角、实例和外观。
安全部署。我们在现实世界实验中观察到的一个有趣的现象是，DP3在实际任务中很少给出不稳定的命令，而基准2D方法却经常这样做，并表现出意想不到的行为，可能对机器人硬件造成潜在的损坏。

主要贡献：