【论文阅读】3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

Abstract

扩散policies是条件扩散模型，它学习以机器人和环境状态为条件的机器人动作分布。他们最近被证明优于确定性和替代的动作分布学习公式。3d机器人policies使用使用感知深度从单个或多个摄像机视图聚合的3d场景特征表示。它们已被证明比它们在相机视点上的 2d 对应物具有更好的泛化能力。我们统一了这两条工作并提出了 3d diffuser actor ，这是一种神经 policy，配备了一种新颖的 3d 去噪 transformer，融合了来自 3d 视觉场景的信息、语言指令和本体感觉来预测噪声 3d 机器人姿态轨迹中的噪声。3d diffuser actor 在 rlbench 上设置了新的最先进技术，在多视图设置上的绝对性能增益比当前的 sota 提高了 18.1%，在单视图设置中的绝对增益为 13.1%。在 calvin 基准测试中，它比之前的 sota 提高了 9%。它还学习从少数演示中控制现实世界中的机器人机械手。通过与当前 sota policies 和我们模型的消融进行了彻底的比较，我们展示了 3d diffuser actor 的设计选择显着优于 2d 表示、回归和分类目标、绝对注意力和整体非标记化 3d 场景嵌入。

1 Introduction

许多机器人操作任务本质上是多模态的：在任务执行期间的任何一点，可能有多个动作产生任务最优行为。事实上，人类演示通常包含可以完成任务的不同方式。一个自然的选择是将policy学习视为分布学习问题:不是将policy表示为确定性映射 ，而是学习以当前机器人状态为条件的动作的整个分布p(y|x)[1,2,3,4]。

最近的工作使用扩散目标从演示中学习这种状态条件动作分布，用于机器人操作policies[5,6,7]。它们优于确定性或其他替代方案， 例如变分自动编码器[8]、高斯混合[9]、分类和回归目标的组合 [4] 或基于能量的目标 [10]。它们通常使用低维(oracle)状态[5]或2d图像[6]作为其场景表示。

同时，3d机器人policies通过基于感知深度和相机外部特性将透视图的特征"提升"到3d机器人工作空间来构建场景表示。它们已被证明在摄像机视点上比2d机器人policies具有更好的泛化能力，并在测试时处理新的摄像机视点 [17，18]。我们推测这种改进的性能来自于视觉场景tokens和机器人的动作在公共3d空间中相互作用的事实 ，这对相机视点具有鲁棒性，而在2d policies中，神经网络需要隐式学习2d到3d的映射。

在这项工作中，我们将扩散用于处理动作预测中的多模态，并使用 3d 场景表示进行有效的空间推理。我们提出了 3d diffuser actor，一种新颖的 3d 去噪 policy transformer，它将标记化的 3d 场景表示、语言指令和加噪声的末端执行器未来平移和旋转轨迹作为输入，并预测机器人末端执行器平移和旋转的误差。该模型表示同一3d空间中的场景tokens和末端执行器位置，并将它们与相对位置3d注意[19，20]融合，实现了平移等方差，有助于泛化

我们在rlbench[11]和calvin[12]的模拟基准以及现实世界中的演示中测试3d diffuser actor从演示中学习机器人操作policies。3d diffuser actor 在 rlbench 上设置了新的最先进技术，多视图设置的绝对增益为 18.1%，单视图设置的绝对增益为 13.1%（图 1），优于现有的 3d policies 和 2d 扩散 policies。在calvin上，它在零镜头 zero-shot 不可见场景泛化设置下的性能优于当前的sota，相对增益提高了9%(图1)。我们进一步展示了 3d diffuser actor 可以从少量真实世界演示中学习 12 个任务中的真实世界中的多任务操作。我们凭经验表明，3d diffuser actor 优于所有现有的 policy 公式，它们要么不使用 3d 场景表示，要么不使用动作扩散。我们进一步与我们模型的消融版本进行比较，并展示了 3d 相对注意力的重要性。

图1：3d diffuser actor结合了扩散policies和3d场景编码，在多任务设置的rlbench[11]和零样本长期设置的calvin[12]基准上设置了新的SOTA。

Our contributions:

这项工作的主要贡献是将3d场景表示和扩散目标相结合，用于从演示中学习机器人policies。3d机器人policies尚未与扩散 objectives 结合。chaineddiffuser是一个例外[21]，它使用扩散模型作为运动规划器的直接替代品，而不是操纵policies，因为它依赖于其他基于学习的policies（act3d[17]）来提供要达到的目标3d关键点。我们在实验中与chaineddiffuser进行了比较，结果表明我们的表现大大优于它。

Concurrent work:并行工作：

在我们努力的同时，3D diffusion policy[22]也有一个类似的目标，即将3d表示与扩散目标相结合，从演示中学习操作。虽然这两部作品有着相同的目标，但它们的架构却截然不同。与3D Diffuser Actor不同，[22]的模型不以tokenized的3d场景表示为条件，而是以从3d场景点云中汇集的整体1d嵌入为条件。我们在实验中将3D Diffuser Actor与[22]进行了比较，并表明它的性能大大优于它。我们认为这是因为3D Diffuser Actor中使用的标记化场景表示对场景变化具有鲁棒性：如果场景的一部分发生变化，则只有3d场景tokens的相应子集会受到影响。相比之下，整个场景中汇集的整体场景嵌入总是受到任何场景变化的影响。由于3D场景标记化的这种空间解纠缠 disentanglement，3D Diffuser Actor的泛化效果更好。

Our models and code will be publicly available upon publication. Videos of our manipulation results are available at https://sites.google.com/view/3d-diffuser-actor.

Learning manipulation policies from demonstrations

早期关于从演示中学习的工作通过行为克隆训练确定性policies[23,24]。为了更好地处理动作多模态，方法将动作维度离散化并使用交叉熵损失[25,16,13]。生成对抗网络[1,2,26]、变分自编码器[8]、组合分类和高斯分布[4,27,28]和基于能量的模型（ebms）[10,29,30]已被用于从多模态演示中学习。扩散模型[31,32]是与EBMs相关的一类强大的生成模型，因为它们模拟分布的分数，也就是能量的梯度，而不是能量本身[33,34]。扩散模型背后的关键思想是通过应用顺序去噪过程将简单的先验分布迭代地转换为目标分布。它们已被用于从低维输入以及视觉感官输入中模拟模仿学习[35,36,5,37,7,38]中的状态条件动作分布，并且在动作预测中显示出比替代方案更好的模式覆盖率和更高的保真度。

Diffusion models in robotics

除了模仿学习中的policy表示外，扩散模型还被用于模拟跨对象和对象部分排列[39,40,38,41,30]、视觉图像子目标[42,43,44,45]和离线强化学习[46,47,48]。chaineddiffuser[21]建议用轨迹扩散模型代替通常用于keypose to keypose链接的运动规划器，该模型以3d场景特征云和预测的目标3d keypose为条件，对从当前到目标keypose的轨迹进行去噪处理。它使用一个扩散模型，该模型将act3d[17]预测的3d末端执行器keyposes作为输入，并使用场景的3d表示来推断将当前末端执行器姿势与预测姿势联系起来的机器人末端执行器轨迹。3D Diffuser Actor会预测机器人末端执行器的下一个3d keyposes以及链接轨迹，这比链接两个给定的keyposes要困难得多。3d扩散策略[22]也将3d场景表示与扩散目标相结合，但使用1d点云嵌入。我们在实验部分与chaineddiffuser和3d扩散策略进行了比较，结果表明我们的表现大大优于它们。

2D and 3D scene representations for robot manipulation

端到端图像到动作policy模型，如rt-1[49]、rt-2[50]、gato[51]、bc-z[52]、rt-x[53]、octo[54]和instructrl[55]，利用transformer架构从2d视频输入直接预测6-dof末端执行器姿势。然而，这种方法的代价是需要数千次演示来隐式建模3d几何体并适应训练领域的变化。以c2f-arm[15]和peract[16]为例，3d场景到动作policies涉及对机器人的工作空间进行体素化，并学习识别包含下一个末端执行器按键的3d体素。然而，随着分辨率要求的增加，这在计算上变得昂贵。因此，相关方法要么采用粗到细的体素化、等变网络[14]，要么采用高效的注意力操作[56]来降低计算成本。act3d[17]完全放弃了3d场景体素化；相反，它通过在空工作空间中采样3d点并使用对3d物理场景点的交叉关注对其进行特征化来计算可变空间分辨率的3d动作图。robotic view transformer（rvt）[18]将输入的rgb-d图像重新投影到替代图像视图，对其进行特征化处理，并将预测提升到3d，以推断机器人末端执行器的3d位置。

3D Diffuser Actor基于3d policies中的act3d[17]和diffusion policies的[36,6]的作品构建。它使用类似于[17]的标记化3d场景表示，但它是一个概率模型而不是确定性模型 。它不采样3d点，也不推断3d动作图。它使用扩散目标，而不是[17]中使用的分类或回归目标。与[40,36]相反，它使用3d场景表示，而不是2d图像或低维状态。我们在实验中与2d扩散policies和3d扩散policies进行了比较，结果表明3D Diffuser Actor的性能大大优于它们。我们在附录的图4中强调了我们的模型与相关模型之间的差异，我们参考图5和图6了解3D Diffuser Actor和act3d的更多架构细节。

3 Method

3D Diffuser Actor经过训练，可以模仿形式的演示轨迹，并伴有任务语言指令l，类似于之前的作品[57,16,17,58]，其中代表视觉观察，at代表时间步长t的机器人动作。每个观察ot是一个或多个姿势RGB-D图像。每个动作都是一个末端执行器姿态并被解耦为3D位置、旋转和开合二值状态，在所有实验中，我们使用[59]的6D旋转表示来表示所有的旋转，以避免四元数表示的不连续性 。我们将使用符号来表示时间范围 T 的时间步 t 处的 3D 位置和旋转的轨迹。我们的模型在每个时间步 t 预测轨迹和二进制状态。

3D Diffuser Actor 的架构如图 2 所示。它是给定视觉场景和语言指令的轨迹的条件扩散概率模型 [31,60]；它通过迭代去噪一次预测整个轨迹 τ，通过迭代去噪，通过反转逐渐将噪声添加到样本的过程。扩散过程与方差调度相关联，它定义了在每个扩散步骤中添加了多少噪声。扩散步骤i处样本的噪声版本可以写成，其中是来自高斯分布的样本(维数与相同)，，。

图 2：3d diffuser actor 概述。(a) 3d diffuser actor 是机器人 3d 轨迹的条件扩散概率模型。在扩散步骤 i 中，它将机器人未来动作轨迹、姿势 rgb-d 视图 o 和本体感觉信息 c 的当前噪声估计转换为一组 3d tokens。它使用 3d 相对去噪 transformers 融合这些 3d tokens 和语言指令 tokens l 中的信息，以预测 3d 机器人位置的噪声和 3d 机器人旋转的噪声。(b)在推理过程中，3d diffuser actor 迭代地去噪机器人未来轨迹的噪声估计。(c) 3d diffuser actor 在现实世界中工作，并在训练演示中捕获多种行为模式。

3D Relative Denoising Transformer

3d diffuser actor 使用 3d 相对 transformer 对去噪过程的学习梯度进行建模，该梯度将时间步 t 的噪声轨迹、扩散步骤 i 和来自语言指令 l 的条件信息、时间步 t 的视觉观察 ot 和本体感觉 ct 作为输入，以预测噪声分量。在每个时间步 t 和扩散步骤 i，我们将视觉观察 ot、本体感觉 ct 和噪声轨迹估计转换为一组 3d tokens。每个 3d token 由潜在嵌入和 3d 位置表示。我们的模型使用相对 3d attention 融合所有 3d tokens，并使用正常注意力额外融合来自语言指令的信息，因为为语言 tokens 定义 3d 坐标是没有意义的。接下来，我们将描述如何对每个部分输入进行特征化（当不明确时，为了清楚起见，我们省略了下标 t）。

3D tokenization

在每个扩散步骤 i 中，我们通过将的每个噪声位姿映射到具有 mlp 的潜在嵌入向量，将干净轨迹的噪声估计表示为 3d 轨迹 tokens 的序列，并将来自噪声 3d 平移分量的 3d 位置表示为 3d 轨迹 tokens 的序列。我们使用 2d 特征提取器对每个图像视图进行特征化，并获得相应的 2d 特征图，其中 c 是特征通道的数量，h, w 是空间维度，使用预训练的 clip resnet50 2d 图像编码器 [61]。给定来自该视图的相应深度图，我们通过平均补丁 patch 范围内的深度值来计算每个 h × w 特征补丁的 3d 位置 (x, y, z)。我们使用相机intrinsic和extrinics和针孔相机模型将patch的像素坐标和深度值映射到相应的3d坐标。这导致 3d 场景 token 基数为 h × w。每个场景token 由对应的补丁特征向量表示，特征向量对应补丁坐标 (x, y) 处和 3d 位置。如果有多个视图可用，我们从每个视图聚合 3d 场景 tokens，以获得最终的 3d 场景 token 集 。本体感觉c也是一个3d场景token，具有可学习的潜在表示和对应于末端执行器当前3d位置的3d位置嵌入。最后，我们按照之前的工作 [17]，使用预训练的 clip 语言编码器将语言任务指令映射到语言 tokens。

我们的 3D Relative Denoising Transformer 在所有 3d tokens 中应用相对自注意力 relative self-attentions，并将交叉注意力应用于语言 tokens。对于 3d 自注意力，我们使用旋转位置嵌入 [20] 来编码注意力层中的相对位置信息。查询 q 和键 k 之间的注意力权重写为：，其中和表示查询/键的特征和 3d 位置，M 是一个矩阵函数，它仅取决于查询和键的相对位置，灵感来自最近关于视觉对应 [62, 63] 和 3d 操作的工作 [17, 21]。我们将最终轨迹tokens输入到mlp中，以预测:

(1)分别添加到的三维平移序列和三维旋转的噪声和，以及

(2)末端执行器打开。

Training and inference

在训练期间，我们随机抽取时间步 t 和扩散步骤 i，并将噪声添加到真实轨迹中。我们使用L1损失来重建3D位置和3D旋转的序列。我们使用二元交叉熵 (BCE) 损失来监督末端执行器打开，我们在推理时使用来自 i=1 的预测。我们的目标：

其中 w1, w2 是使用交叉验证估计的超参数。为了从学习的分布中抽取样本，我们首先绘制样本。然后，我们根据指定的采样调度[32,64]迭代应用N次来逐步去噪样本，该采样终止于τ0，从下面中采样的τ0

，

其中是适当维度的随机变量。根据经验，我们发现分别对和使用单独的噪声调度器，特别是缩放线性和平方余弦调度器，可以获得更好的性能。

Implementation details

在训练过程中，我们按照之前的工作[57,16,17,55]对检测到的末端执行器keyposes的演示轨迹进行分割，如打开/关闭末端执行器状态的变化或速度/加速度的局部极值 。然后我们重新采样每个轨迹段具有相同的长度 T。在推理过程中，3D Diffuser Actor 可以预测和执行直到下一个关键姿势（包括关键姿势）的动作的完整轨迹，或者只是预测下一个关键姿势并使用基于采样的运动规划器来实现这一点，类似于以前的工作 [16, 27, 17]。

由于空间限制，请检查 B.3 节的详细模型图，B.5 节用于我们选择超参数，B.6 节用于去噪扩散概率模型的详细公式，B.7 节用于附录中噪声调度器的讨论。

4 Experiments

我们在 RLBench [11] 和 CALVIN [12] 上的多任务操作中测试了 3D Diffuser Actor，这是两个从演示基准和现实世界建立的学习。

4.1 Evaluation on RLBench

rlbench建立在coppelasim[65]模拟器之上，其中franka panda机器人用于操作场景。在rlbench上，我们的模型和所有基线都被训练来预测下一个末端执行器的关键姿态 ，而不是姿态轨迹 ;所有方法都采用低级运动规划器birrt[66]，原生rlbench，以达到预测的机器人关键姿态。我们根据可用相机的数量在两个设置上训练和评估 3d diffuser actor：

多视图设置，在 [16] 中引入，它使用一组 18 个操作任务，每个任务有 2-60 个变化，涉及对象姿势、外观和语义之间的场景可变性。有四个rgb-d相机可用：前、手腕、左肩和右肩。手腕相机在操作过程中移动。
单视图设置，在[67]中引入，它使用一套10个操作任务。只有前rgb-d相机视图可用。我们通过任务完成成功率来评估policies，这是实现语言指令中指定的目标条件的执行轨迹的比例[17,16]。

Baselines

rlbench上的所有比较方法都是3d policies ，在rgb-d输入的特征化过程中使用深度和相机参数。我们与以下内容进行比较：c2f-arm-bc [15] 和 peract [16] 对 3d 工作空间进行体素化，hiveformer [27] 对与 2d rgb 帧对齐的 xyz 坐标进行特征化，polarnet [68] 使用单个 rgb-d 视图对场景 3d 点云的特征化，gnfactor [67] 使用单个 rgb-d 视图进行训练，并经过训练以完成 3d 特征体积，rvt [18] 和 act3d [17]，它们是 rlbench 上以前的 sota 方法。我们根据各自的论文报告了 rvt、polarnet 和 gnfactor 的结果。cf2-arm-bc 和 peract 的结果如表 [18] 所示。hiveformer的结果复制自[68]。我们使用公开可用的代码在多视图设置中重新训练 act3d，因为我们发现原始论文中使用的训练和测试拆分存在一些差异。我们还在单视图设置上训练了 act3d，以用作单视图设置的附加基线，以及 gnfactor。3d diffuser actor 和所有基线都在从专家演示中提取的同一组关键姿势上进行训练 [57]。

我们在表1中显示了多视图设置的定量结果和表2中的单视图设置。在多视图上，3D Diffuser Actor在所有18个任务中的成功率平均达到81.3%，比之前的最先进技术Act3D绝对提高了+18.1%。特别是，3D Diffuser Actor 在具有多个模式（例如堆块、堆杯子和放置杯子）的长视距高精度任务上实现了很大的飞跃，大多数基线都无法完成。所有基线都使用分类或回归损失，我们的模型是唯一一种使用扩散进行动作预测的方法。

在单视图上，3D Diffuser Actor 比 GNFactor 高 +46.7%，Act3D 高 +13.1%。令人惊讶的是，Act3D 也大大优于 GNFactor。这表明 3D 场景表示的选择比 3D 特征补全更重要。由于Act3D具有与3D Diffuser Actor类似的3D场景标记化，这表明了扩散对替代方案在预测中处理多模态的重要性，特别是基于采样的3D动作映射和旋转回归。

表 1：多视图设置上 RLBench 的评估。我们展示了所有随机种子的成功率平均值的平均值和标准差。3D Diffuser Actor 在大多数任务上都大大优于所有现有技术。可用时包含方差。

表 2：单视图设置中 RLBench 的评估。3D Diffuser Actor 在大多数任务上大大优于先前的最先进的基线 GNFactor 和 Act3D。

Ablations

我们考虑我们模型的以下消融版本：

2D Diffuser Actor，我们实现了 [6] 的 2D 扩散策略。我们从 3D Diffuser Actor 中删除了 3D 场景编码，而是通过每个视图中的平均池化特征使用每张图像 2D 表示。我们添加了可学习的嵌入来区分不同的视图并将它们与动作估计融合，如[6]中所做的那样。

2.3D Diffuser Actor w/o RelAttn。，使用绝对（非相对）注意力的消融版本。

我们在表 3 中展示了消融结果。 3d diffuser actor 大大优于其 2d 对应物 2d diffuser actor。这显示了 3d 场景表示在性能方面的重要性。具有绝对 3d 注意力的 3d diffuser actor (3d diffuser actor w/o relattn)。）比具有相对 3d 注意力的 3d diffuser actor 差。这表明通过相对注意力的平移等方差对于泛化很重要 。尽管如此，这种消融版本已经优于表 1 中的所有现有技术，证明了结合 3d 表示和扩散 policies 的有效性。

表 3：消融研究。我们的模型明显优于不使用 3D 场景表示或平移等变 3D 相对注意力的对应模型。

4.2 Evaluation on CALVIN

CALVIN 基准建立在 PyBullet [69] 模拟器之上，涉及一个 Franka Panda 机械臂来操纵场景。CALVIN 由 34 个任务和 4 个不同的环境（A、B、C 和 D）组成。所有环境都配备了一个桌子、一个滑动门、一个抽屉、一个打开/关闭LED按钮、一个控制灯泡和三个不同彩色块的开关(红色、蓝色和粉色)。这些环境在桌子的纹理和物体的位置之间彼此不同。CALVIN 提供 24 小时远程操作的非结构化播放数据，35% 的数据用语言描述进行注释 。每个指令链包括五个需要按顺序执行的语言指令。我们在所谓的零样本泛化设置上进行评估，其中模型在环境 A、B 和 C 中进行训练并在 D 中进行测试。我们报告成功率和完成顺序任务的平均数量，遵循之前的工作 [70, 58]。CALVIN中没有运动规划器，因此所有模型都需要预测机器人的姿态轨迹。

Baselines

到目前为止，calvin 中测试的所有方法是 2d policies，不使用深度或相机extrinsics。我们比较了mcil[71]、hulc[70]和susie[45]的分层2d policies，它们在给定语言指令的情况下预测子目标的潜在特征或图像，它们被馈送到较低级别的子目标条件policies 。它们可以在 calvin 中可用的所有数据上训练低级 policy，而不仅仅是语言注释子集。我们比较了rt-1[49]、roboflamingo[72]和gr-1[58]的大规模2d transformer policies，它们对大量交互或观察(仅视频)数据进行预训练。我们报告了来自相应论文的 hhulc、roboflaminggo、susie 和 gr-1 的结果。mccl 的结果是从 [70] 中借用的。rt-1 的结果从 [58] 复制。

我们还与我们在语言注释训练集上训练的 3D Diffusion Policy [22] 和 ChainedDiffuser [21] 进行了比较。我们评估了 3D Diffusion Policy、ChainedDiffuser 和 3D Diffuser Actor，其中包含 3 个种子的最终检查点。我们报告了评估结果的均值和标准差。我们设计了一种算法来提取 CALVIN 上的关键姿势，因为之前的工作没有使用关键姿势。我们将关键姿势定义为具有显著运动变化的帧 。ChainedDiffuser 和 3D Diffuser Actor 都根据keyposes分割演示。值得注意的是，尽管 RLBench 中提取的关键姿势具有清晰的结构，因为它们对应于以编程标记的 3D 航路点 [11, 57]，但在 CALVIN 中提取的关键姿势是嘈杂和随机的，因为基准由人类播放轨迹组成。

为了评估，先前的工作 [70]、45、72] 预测了 360 个动作的最大时间范围来完成每个任务，而平均而言，真实轨迹只有 60 个动作长。我们的模型预测轨迹并在执行每个轨迹后重新规划，而不是在每个单独的动作之后。平均而言，完成一项任务需要 10 个轨迹推理步骤。因此，我们允许我们的模型为每个任务预测 60 个轨迹的最大时间范围。

我们在表 4 中展示了定量结果。 3D Diffuser Actor 优于最先进的方法。ChainedDiffuser 在这个基准测试中效果不佳。原因是，与 RLBench 的编程收集的演示相比，它的确定性关键姿势预测模块未能准确预测 CALVIN 人类演示中存在的多模态，无法准确预测末端执行器的关键姿势。允许3D Diffuser Actor在终止之前有更长的视野可以显著提高性能，这表明模型可以在失败时学会重试。

Table 4: Zero-shot long-horizon evaluation on CALVIN on 3 random seeds.

4.3 Evaluation in the real world

我们通过12个任务的真实演示验证了3D扩散器Actor在学习操纵任务中的有效性。我们使用的Franka Emika机器人正面装有Azure Kinect RGB-D传感器。图像最初以1280×720分辨率捕获，并降采样到256×256分辨率。在推理过程中，我们使用MoveIt！ROS包提供的BiRRT[66]规划器达到预测姿态。

我们每项任务收集15个演示，其中大部分自然包含噪音和多种人类行为模式。例如，我们从两只鸭子中挑一只放进碗里，把钉子插入两个孔中的一个，然后把三颗葡萄中的一颗放进碗中。我们为每项任务评估10次发作，并报告成功率。我们在表5中显示了定量结果，并在我们的项目网页上显示了视频结果。3D Diffuser Actor从少数演示中有效地学习了现实世界的操作。

Runtime

我们使用NVIDIA 2080 Ti图形卡，将模型的控制频率与CALVIN上的ChainedDiffusion[21]和3D扩散策略[22]进行了比较。3DDiffuser Actor、ChainedDiffuser 和3D Diffusion Policy的推理速度分别为600ms、1170ms（keypose检测为50，轨迹优化为1120）和581ms，用于执行6、6和4个末端执行器姿势。相应的控制频率为10Hz、5.1Hz和5.2Hz。

Limitations

尽管其sota性能比现有方法有很大的差距，但我们的框架目前存在以下局限性：1。它需要相机校准和深度信息，与所有3d policies相同。2.rlbench和calvin中的所有任务都是准静态的。将我们的方法扩展到动态任务和速度控制是未来工作的直接途径。平均而言，它比非扩散policies慢。这可以通过减少扩散模型推理步骤的最新技术来改进

请参阅我们的附录了解更多实验和细节：第A.1节了解3D扩散器Actor对深度噪声的鲁棒性，第A.2节讨论故障案例，第A.3节和第A.4节描述RLBench和现实世界中的任务，第A.5节描述基线，第A.5.1节了解CALVIN上重新训练3D扩散策略的实施细节，第A.6节介绍CALVIN上的keypose发现。视频结果可以在我们的补充文件中找到。

5 Conclusion

我们提出了 3d diffuser actor，这是一种结合了 3d 场景表示和动作扩散的操作 policy。与现有的2d和3d policies相比，我们的方法在rlbench和calvin上设置了最新的技术水平，并从少量的演示中学习现实世界中的机器人控制。3d diffuser actor 建立在机器人和生成模型的 3d 标记化场景表示的最新进展之上，并展示了它们的组合如何从演示方法中学习的强大。我们未来的工作包括从次优演示中学习 3d diffuser actor policies，并在模拟和现实世界中扩大训练数据。

【论文阅读】3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

Abstract

1 Introduction

Our contributions:

Concurrent work:并行工作：

2 Related Work

Learning manipulation policies from demonstrations

Diffusion models in robotics

2D and 3D scene representations for robot manipulation

3 Method

3D Relative Denoising Transformer

3D tokenization

Training and inference

Implementation details

4 Experiments

4.1 Evaluation on RLBench

Baselines

Ablations

4.2 Evaluation on CALVIN

Baselines

4.3 Evaluation in the real world

Runtime

Limitations

5 Conclusion