【论文阅读】RVT: Robotic View Transformer for 3D Object Manipulation

Abstract

对于 3d 对象操作，构建显式 3d 表示的方法比仅依赖相机图像的方法表现更好。但是使用诸如体素之类的显式 3d 表示是以巨大的计算成本为代价的，从而对可扩展性产生不利影响。在这项工作中，我们提出了rvt，这是一个多视图transformer，用于3d操作，既可扩展又准确。rvt的一些关键特征是一种注意机制，用于跨视图聚合信息，并从机器人工作空间周围的虚拟视图重新渲染相机输入。在模拟中，我们发现单个 rvt 模型在具有 249 个任务变化的 18 个 rlbench 任务中运行良好，比现有的最先进方法 (peract) 实现了 26% 的相对成功。它还比 peract 快 36 倍，以实现相同的性能，并实现了 peract 的推理速度 2.3 倍。此外，rvt 可以在现实世界中执行各种操作任务，每个任务只有几个（~10）演示。视觉结果、代码和经过训练的模型在以下网址提供：https://robotics-view-transformer.github.io/。

Keywords: 3D Manipulation, Multi-View, Transformer

1 Introduction

机器人学习的一个基本目标是构建能够在不受约束的 3D 设置中解决各种操作任务的系统。一种流行的学习方法直接处理从单个或多个摄像机观看的图像。这些基于视图的方法在各种拾取和放置和对象重排任务上取得了令人瞩目的成功 [1, 2, 3, 4]。然而，它们在需要 3D 推理的任务上的成功是有限的。如James等人[5]和Shridhar等人[6]所示，基于视图的方法在RLBench[7]上的3D操作任务中挣扎，成功率不到2%。、

为了解决这个问题，已经提出了用场景的显式3d表示来推理的方法。c2farm[5]用多分辨率体素表示场景，并在困难的rlbench任务中取得了很强的性能。peract[6]通过使用perceiver transformer[8]处理体素，改进了行为克隆中的c2f-arm。然而，与图像推理相比，创建和推理体素的计算成本更高，因为体素的数量随着分辨率的增加而立方缩放，而不是直接针对图像像素。与基于视图的方法相比，这使得基于体素的方法的可扩展性较差。事实上，使用8个v100 gpu（3072 gpu小时）在18个rlbench任务上训练peract需要16天。这阻碍了快速开发和原型制作。此外，当扩展到具有更多任务和多样性的更大数据集时，这种计算要求变得更加令人望而却步。

因此，一个关键问题是------我们能否构建一个操作网络，不仅性能良好，而且继承了基于视图的方法的可扩展性？为此，我们提出了RVT（Robotic ViewTransformer），它在成功率和训练时间方面都明显优于基于SOTA体素的方法，如图1所示。在相同的硬件条件下，RVT在36倍的时间内实现了PerAct的峰值性能，将训练时间从14天缩短到10小时。除了训练速度快得多外，RVT的成功率也比PerAct高出26%，在RLBench上平均完成18项任务（249项任务变化）。在RLBench上，RVT在88.9%的任务上优于PerAct，同时实现了2.3倍的推理速度（11.6 vs 4.9 fps）。此外，我们发现RVT在现实世界中也能很好地工作，其中只有51个演示，单个RVT模型就可以学习执行各种操作任务（5个任务，13个变体），如打开抽屉、将物体放在架子上、按洗手液和堆叠物体（见图4）。

图1:RVT的扩展和性能优于RLBench上的PerAct，在36倍的时间内实现了同等性能（相同的硬件），峰值性能为1.26倍。

RVT的核心是一种基于视图的方法，它利用了transformer架构。它联合处理场景的多个视图，并聚合视图中的信息。然后，它生成视图式热图和特征，用于预测机器人末端执行器的姿态。我们深入研究了多视图架构的设计，并报告了几个有用的发现。例如，我们观察到，当强制transformer在连接补丁以进行联合关注之前，首先关注同一图像中的补丁时，性能会更好。

另一个关键创新是，与之前的基于视图的方法不同，我们通过重新渲染虚拟视图中的图像，将相机图像与馈送到transformer的图像解耦。这使我们能够控制渲染过程，并带来了几个好处。例如，我们可以从对任务有用的视点（例如，直接在表格上方）重新渲染，同时不受现实世界物理约束的限制。此外，由于RVT的多视图输入是通过重新渲染获得的，因此我们甚至可以使用单传感器相机来使用RVT，就像我们在现实世界的实验中所做的那样。

总之，我们的贡献有三方面：首先，我们提出了RVT，一种用于3D对象操纵的多视图rp4880s，它准确且可扩展；其次，我们研究了多视图transformer的各种设计选择，这些选择可以提高对象操作性能；最后，我们对仿真和现实世界中的多任务对象操纵进行了实证研究。

Vision-based Object Manipulation.

机器人控制policy的学习传统上是通过低维状态观测来研究的[9,10,11,12,13]。最近，基于视觉的policies[14,15,16,17,18,19,20,21]越来越受到关注，因为高维视觉感官输入在任务中提供了更通用的观察表示 ，并且在现实世界的感知系统中更容易访问。已经探索了各种形式的视觉输入。先前的工作已经将rgb图像直接编码到低维潜在空间中，并依赖于基于模型的[22,23]或无模型的[24,25]强化学习（rl）来训练policies在这个空间中运行。最近，rt-1[26]通过利用transformer架构[27]，从图像历史中推断出机器人的动作。我们提出的rvt也使用transformer来预测动作，但是，与rt-1不同，我们还利用深度来构建多视图场景表示。深度输入的使用也得到了广泛的研究。cliport[3]和IFOR[1]等方法直接处理rgb-d图像进行对象操作，因此仅限于2d自上而下设置中的简单拾取和放置任务。为了克服这个问题，已经使用了点云等显式3d表示 。c2f-arm[5]和peract[6]将点云体素化，并使用3d卷积网络作为控制推理的骨干。然而，高精度任务通常需要高分辨率的体素化，从而导致高内存消耗和缓慢的训练。我们的方法属于这一类，但通过将点云从多个视图转换为一组rgb-d图像来解决可扩展性问题。

我们发现，与直接使用RGB（-D）或点云输入相比，这显著提高了内存占用和训练效率，并带来了更高的性能（见表1）。另一项相关工作是MIRA[28]，它也使用新颖的视图图像来表示3D场景以进行动作推理。MIRA通过从一组RGB图像隐式构建场景的神经辐射场表示（NeRF），然后从优化的NeRF模型生成新的视图图像来实现这一点 。然而，优化场景NeRF模型的要求降低了测试时的推理速度，并依赖于来自密集视图集的RGB图像作为输入 。相比之下，我们的方法可以实现更快的推理速度，甚至可以处理单视图RGB图像。

Multi-Task Learning in Robotics.

最近，机器人界对学习一个用于许多不同任务的单一模型特别感兴趣。大量的工作通过使用可泛化的任务或动作表示来实现多任务泛化，如对象点云[18,19]、语义分割和光流[1]以及以对象为中心的表示[29,30]。然而，这种表示的有限表达力限制了它们只能在任务类别内进行泛化。通过强化学习研究了任务参数化[31,32]和离散任务相关输出层[33,34]方法，以学习不同类别任务的policies。随着大型语言模型的最新突破，多任务机器人学习已经通过使用自然语言指定广泛的任务并从大型预先收集的数据集中学习policy来实现[35,26,36,2,37,38,39,40,41]。我们受到了这一成功的启发，但建议使用一个小型演示数据集学习语言条件多任务policies。

Transformers for Object Manipulation.

transformers在视觉和nlp方面的成功引领了机器人学习[42,43,44,17]。特别是在对象操纵中，可以利用具有注意力机制的基于变换器的模型从感官输入中提取特征，以改善policy学习[45,46,47,48,49]。与大多数先前的工作不同，我们不使用大型数据集进行训练。rvt有效地从一小部分演示中学习，将多个视图作为视觉输入进行处理，并融合来自语言目标的信息来处理多个操作任务。

Multi-View Networks in Computer Vision.

多视图表示在各种视觉问题中得到了探索。对于点云识别，SimpleView[50]展示了简单的基于视图的方法如何优于复杂的基于点的方法。MVTN[51]和Voint cloud[52]等后续作品进一步改进了SimpleView的架构。多视图表示也被用于其他问题，如3D视觉基础[53]和视图合成[54]。与它们不同，我们专注于预测机器人操作物体的行为。

3 Method

我们的目标是学习一个可以完成各种操作任务的单一模型。输入包括（1）任务的语言描述，（2）当前视觉状态（来自RGB-D相机），以及（3）当前夹持器状态（打开或关闭） 。该模型应预测一个动作，该动作由目标末端执行器姿态和下一关键帧的夹持器状态指定 。关键帧代表任务执行过程中抓取器的重要或瓶颈步骤[55]，如预取、抓取或放置姿势。给定目标末端执行器姿态，我们假设一个低级运动规划器和控制器可以将末端执行器移动到目标姿态 。为了训练模型，我们假设给出了一个包含n个专家演示的数据集，涵盖了各种任务。每个演示都是长度mi的成功展开 roll-out ，其中li是任务的语言描述，是具有抓取器状态的RGB-D相机的一系列观察结果，而则是相应的机器人动作序列。此演示数据集可用于使用行为克隆训练模型。

我们提出的方法（rvt）是一个transformer模型[27]，它处理机器人工作空间周围重新渲染的图像，为每个视图产生输出，然后将其反投影到3d中以预测夹具的姿态动作，如图2所示。

图2:rvt概述。给定传感器的rgb-d，我们首先构建场景的点云。然后，点云用于在机器人工作空间周围生成虚拟图像。虚拟图像被馈送到多视图transformer模型，以预测视图特定的特征，然后将这些特征组合在一起，以预测3d中的动作。

Rendering.

第一步是重新渲染相机输入。给定一个或多个传感器相机捕获的rgb-d图像，我们首先重建场景的点云。然后，从一组锚定在机器人基座中心空间的虚拟视点重新渲染点云（见图2和图3）。具体来说，对于每个视图，我们渲染三个图像map，总共有7个通道：（1）rgb（3个通道），（2）深度（1个通道）和（3）世界帧中点的（x，y，z）坐标（3个信道）。（x，y，z）坐标有助于建立视图之间像素的对应关系，即如果来自不同视图的像素共享相同的（x，y，z），则它们对应于3d中的同一点。我们使用pytorch3d[56]进行渲染。我们实证验证了渲染pipeline中的各种设计选择（见表2（左））。

重新渲染过程将输入图像与馈送到transformer的图像解耦。这提供了几个好处，例如：能够在任意和有用的位置（例如，直接在桌子上方）重新渲染 ，而不受现实世界相机放置的限制；即使使用单传感器相机，也能进行多视图推理 ；允许使用正交图像而不是通常提供的透视图像 ；促进3D点云增强，并启用传感器图像中没有原生呈现的点对应等附加通道。我们实证发现，这些有助于实现基于视图的网络的高性能（见第4.1节）。

Joint Transformer.

重新渲染的图像、任务的语言描述和夹持器状态（打开或关闭）由Joint transformer模型处理（见附录中的图5）。对于语言，我们使用预训练的clip[57]嵌入（resnet-50变体），为每个单词提供一个token。对于虚拟图像，我们将每个虚像分解为20×20的块，并通过多层感知器（mlp）生成图像tokens，类似于vit[58]。对于夹持器状态，类似于peract[6]，我们将其通过mlp并将其连接到图像tokens。我们还为所有图像和语言tokens添加了位置嵌入，以保留位置信息。

总体而言，rvt有八个自我关注层。在前四层中，图像token只允许关注同一图像中的其他tokens 。这使得网络在跨图像共享信息之前，首先处理单个图像 。我们随后将所有图像tokens与语言tokens连接起来。在最后四层中，我们允许注意力层在不同的图像和文本之间传播和积累信息。最后，图像tokens被重新排列回原始空间配置，从而得到每个图像的特征通道

Action Prediction.

该模型输出一个8维动作，包括6-DoF目标末端执行器姿势（3-DoF用于平移，3-DoF用于旋转）、1-DoF夹持器状态（打开或关闭）以及低级运动规划器是否允许碰撞的二进制指示器（详见[6]）。对于平移，我们首先根据Joint Transformer的每幅图像特征预测每个视图的热图 （如附录中的图5所示）。然后，对不同视图的热图进行反向投影 ，以预测密集覆盖机器人工作空间的离散化3D点集的得分 。最后，末端执行器平移由得分最高的3D点确定 。请注意，这种用于平移预测的多视图热图表示扩展了2D自上而下视图设置中的先前方法[4]。因此，RVT通过在相同的空间结构中表示视觉输入和动作，继承了优越的采样效率的优势[4]。

对于末端执行器旋转，我们遵循PerAct使用Euler角度表示，其中每个角度都被离散化为5◦分辨率的区间。夹持器状态和运动规划器碰撞指示符表示为二进制变量。为了预测旋转、夹持器状态和碰撞指示器，我们使用全局特征。全局特征是（1）沿空间维度的图像特征的总和，由预测的平移热图加权；以及（2）沿空间维度的最大池化 max-pooled 图像特征。具体来说，设fi为图像特征，hi为第i幅图像的预测平移热图。然后，全局特征由

G=给出

其中K是图像的数量，⊙表示元素乘法，φ和ψ表示高度和宽度维度上的总和 sum 和最大池化 max-pooling。加权求和操作为预测末端执行器位置附近的图像位置提供更高的权重。

Loss Function.

我们使用损失的混合来训练RVT。对于热图，我们使用每个图像的交叉熵损失。ground truth是通过3D位置ground truth的2D投影周围的截断高斯分布获得的。对于旋转，我们使用每个欧拉角的交叉熵损失。我们使用二元分类损失作为夹具状态和碰撞指示器。

4 Experiments

4.1 Simulation Experiments

Simulation Setup.

我们遵循 PerAct [6] 中的模拟设置，其中 CoppelaSim [59] 应用于模拟各种 RLBench [7] 任务。控制一个带有平行夹持器的Franka Panda机器人来完成任务。我们在与 PerAct 相同的 18 个任务上进行测试 ，包括挑选和放置、工具使用、抽屉打开和高精度挂钉插入（有关每个任务的详细规范，请参见附录）。每个任务包括相关语言描述指定的几个变体。如此广泛的任务和任务内的变化要求模型不仅要专注于一个特定的技能，还要学习不同的技能类别 。视觉观察是从四个无噪声的RGB-D相机捕获的，这些相机位于前、左肩、右肩和手腕，分辨率为128 × 128。为了实现目标夹持器的姿态，我们通过使用与[5,6]相同的基于采样的运动规划器[60,61]来生成关节空间动作。

Baselines

我们与以下三个基线进行比较：

（1）image-bc [2] 是一种图像到动作行为克隆 agent，它根据来自传感器相机视图的图像观察来预测动作。我们分别与 cnn 和 vit 视觉编码器的两种变体进行了比较。

(2) c2f-arm-bc [5] 是一种行为克隆 agent，它将 rgb-d 图像转换为多分辨率体素，并使用从粗到细的方案预测下一个关键帧动作。

(3) peract[6]是最先进的多任务行为克隆agent，它将rgb-d图像编码为体素网格补丁，并使用感知者[8]transformer预测离散化的下一个关键帧动作

Training and Evaluation Details.

就像基线一样，我们使用 RLBench 训练数据集，每个任务有 100 个专家演示（所有任务有 1800 个演示）。与 PerAct 类似，我们应用平移和旋转数据增强。对于平移，我们在 [± 0.125m, ± 0.125m, ± 0.125m] 范围内随机扰动点云。对于旋转，我们在±45◦的范围内随机旋转z轴(垂直)周围的点云。我们使用 LAMB [62] 优化器训练 RVT 100k 步。我们使用 24 的批量大小和 2.4 × 10−4 的初始学习率。我们使用热启动的余弦学习率衰减 2K 步。

对于 Image-BC 和 C2F-ARM-BC，我们采用 PerAct[6] 中的评估结果，因为它们训练的模型尚未发布。这些结果高估了 Image-BC 和 C2F-ARMBC 的性能，因为它们根据验证集的性能独立为 18 个任务中的每一个选择最佳模型 。因此，报告的性能不能反映单个多任务模型 。尽管如此，这些基线仍然不如 PerAct 和 RVT（见表 1）。对于 PerAct，我们评估了 Shridhar 等人发布的最终模型[6]。我们测试了我们的模型（包括消融研究中的模型，Tab2（左））和 PerAct 在每个任务的相同 25 个变体上。由于基于采样的运动规划器的随机性，我们对每个任务在相同的 25 个变化上运行每个模型五次，并在表1中报告了平均成功率和标准偏差。

表 1：RLBench 上的多任务性能。RVT 优于最先进的方法，同时更快训练和执行。RVT 在所有任务中取平均值时具有最佳的成功率和排名。Shridhar等人在[6]中报告了图像BC (CNN)、图像BC (ViT)和C2F-ARM-BC的性能。我们使用已发布的最终模型重新评估 PerAct 并估计均值和方差。RVT 在执行速度上比 PerAct 快 2.3 倍，并在 16/18 任务上超过了它。PerAct 和 RVT 的训练时间和推理速度在相同的 GPU 模型上测量。

为了公平地将训练效率与 PerAct 进行比较，我们使用与 Shridhar 等人报告的相同的 GPU 类型（NVIDIA Tesla V100）和 GPU 数量 (8) 训练我们的模型。我们在表中报告了两个模型的总训练时间。1（"训练时间"）。我们还通过在同一GPU（NVIDIA RTX 3090）上对相同的输入数据运行预测推理来评估PerAct和RVT模型的推理速度。

Multi-Task Performance.

表1比较了RVT和基线之间的性能。我们发现PerAct和RVT的表现明显优于其他任务。总体而言，RVT在所有任务中的平均排名和成功率均优于所有基线。它比之前最先进的方法C2F-ARM高出42个百分点（相对提高213%）；PerAct提高了13个百分点（相对改善26%）。在88.9%（16/18）的任务中，RVT的表现优于PerAct。更值得注意的是，在达到相同性能的情况下，RVT的训练速度比PerAct快36倍（见图1）。我们还观察到，在推理时，RVT比PerAct快2.3倍。这些结果表明，与现有的最先进的基于体素的方法相比，RVT更准确、更可扩展。还提供了任务设置和模型性能的更多可视化。

Ablation Study.

我们进行消融实验来分析rvt的不同设计选择：

（a）渲染图像的分辨率（表2（左）中的"Im. Res."列）；

（b）是否包括渲染图像之间的对应信息（"View Corr."）；

（c）是否包括深度通道（"Dep. Ch."）；

（d）在联合处理所有tokens之前，是否单独处理每个图像的tokens（"Sep. Proc."）；

（e）渲染的投影类型------透视或正交（"Proj. Type"）；

（f）是否使用旋转增强（"Rot. Aug."）；

（g）重新渲染的视图数量和相机位置（""# of View"和"Cam. Loc."）；

（h）使用重新渲染图像与使用真实传感器相机图像（"Real" for "Cam. Loc."）的好处。

表2：左：RLBench上的消融。更大的分辨率、添加视图对应关系、添加深度通道、分离初始注意力层、正交投影、使用旋转aug.和围绕立方体重新渲染视图可以提高性能。右：真实世界实验的结果。单个RVT模型只需少量演示即可在大多数任务上表现良好。

表2（左）总结了消融实验结果。同一表格以及每个任务的平均值和标准偏差见附录表4。下面我们讨论调查结果：

（a）正如预期的那样，以更高分辨率渲染的虚拟图像有所帮助，因为具有虚拟图像分辨率220的RVT优于具有100的RVT。

（b）为不同视图中的点添加对应信息会有所帮助（见第3节）。这可能是因为网络不需要学习解决对应问题，并且可以预测跨视图的更一致的热图。注意，视图对应通道不存在于传感器图像中，而是与rvt中的rgb（d）图像一起渲染。

（c） 添加深度通道和rgb通道会有所帮助，可能是因为它有助于3d推理。

（d）在合并所有图像tokens之前，从单个图像中独立处理tokens会有所帮助。这可能是因为这种设计希望网络在联合推理之前为每张图像提取有意义的特征。

（e）对于立方体和真实相机位置，使用正交投影渲染图像比使用透视投影渲染效果更好 。我们假设这是因为正交投影保留了物体的形状和大小，而不管它与相机的距离如何（见图3（e-f））。它还强调了重新渲染的优势，因为真实的传感器通常使用透视投影进行渲染。

（f）正如预期的那样，在渲染之前在点云中使用3d旋转增强会有所帮助。为了利用3d增强，需要重新渲染过程。

（g）围绕立方体有5个视图的模型（图3（a））表现最佳 ，其次是围绕立方体有3个视图（前、上、左）的模型（见图3（b））。单视图模型，我们像TransporterNet[4]一样将第三个坐标预测为偏移，其性能要差得多，需要多个视图进行3D操作。它还强调了重新渲染的优势，因为通过重新渲染，即使使用单个传感器相机，我们也可以利用多个视图 。我们还实证发现，相对于桌子（和机器人）将相机的位置旋转15◦（见图3）会降低性能。这可能是因为与桌子和机器人对齐的视图可能更容易推理（例如，俯视图、对齐的前视图）。

（h）与使用传感器相机图像相比，RVT在重新渲染图像时表现更好 （表2（左），倒数第二行）。传感器摄像头图像是通过透视投影（物理渲染过程）渲染的，在不重新渲染的情况下应用3D增强（例如旋转）并不简单。此外，传感器摄像头的位置可能对3D推理来说不是最优的，例如，视图与桌子或机器人没有轴向对齐（见图3（d））。所有这些因素都有助于RVT在重新渲染的图像中比在传感器相机图像中表现更好。

值得注意的是，人们可能会考虑重新排列传感器摄像头以匹配重新渲染的视图，从而绕过重新渲染。然而，这将使使用正交投影、3D增强和添加对应关系的收益无效。这也严格要求多摄像头设置（图3（a）），这比使用一个传感器摄像头更昂贵，在现实世界中更不便携。最后，我们简要探讨了视图选择，并找到了一个跨任务运行良好的选项。进一步优化视图，包括传感器和重新渲染的视图，是一个有趣的未来方向。

4.2 Real-World

我们通过在真实世界的设置中训练和测试模型来研究RVT在真实视觉感官数据上的性能。有关设置和型号性能的更多详细信息，请参阅随附的视频1。

Real World Setup.

我们总共采用了5项与PerAct[6]中类似的任务（见表2（右））：堆叠积木、按压消毒剂、将马克笔放在杯子/碗里、将物体放在抽屉里、将物品放在架子上。每个任务都可以用语言描述定义的不同变体进行实例化。例如，对于堆叠块，一些变体可以是"将黄色块放在蓝色块上"和"将蓝色块放在红色块上"。给定一个任务和变体，我们通过将与任务相关的对象和一组干扰物对象以随机配置放置在桌子上来对场景进行采样。

Data Collection.

我们首先通过人体演示收集数据集来训练RVT。给定一个采样任务和场景配置，我们要求人类演示者通过动觉移动 kinesthetically moving 机器人手臂来指定一系列抓取器目标姿势。一旦我们有了目标姿势序列，我们就会将机器人重置为开始姿势，然后控制它按照指定的顺序顺序移动到每个目标姿势。在机器人向目标运动的过程中，我们同时记录来自摄像机的RGB-D流。这为我们提供了一个与目标姿势注释配对的RGB-D帧数据集。我们总共收集了5个任务中的51个演示序列。

Results

我们使用与模拟数据相同的优化器、批处理大小和学习率计划，对10K步的真实数据进行训练。我们在表2（右）中报告了结果。总体而言，RVT在堆叠块任务（100%）和消毒液任务（80%）方面取得了很高的成功率。即使在将物体放入抽屉和架子等长期任务 中（例如，机器人必须首先打开抽屉/架子，然后拿起物体），我们的模型也能达到50%的成功率（见图4）。我们发现RVT在与标记相关的任务中遇到了困难，这可能是由于稀疏和嘈杂的点云。我们进一步将结果分为两组："+标记"（全组）和"-标记"。我们的模型在非标记任务上总体上实现了82.5%的成功率。标记问题可以通过将相机连接到夹具上以更高质量捕获点云来解决。另一种可能是使用类似于C2F-ARM[5]的放大视图。

图4：现实世界中的RVT示例。一个RVT模型可以在现实世界中执行多个任务（5个任务，13个变体），每个任务只需约10次演示。

5 Conclusions and Limitations

我们提出了RVT，一种用于3D对象操纵的多视图transformer模型。我们发现，RVT在各种3D操作任务上优于PerAct和C2F-ARM等先前最先进的模型，同时具有更高的可扩展性和更快的速度。我们还发现，RVT仅需少量演示即可完成现实世界的操作任务。尽管我们发现RVT取得了最先进的结果，但我们发现了一些局限性，为未来的研究提供了令人兴奋的方向。我们简要探讨了各种视图选项，并发现了一种跨任务运行良好的选项，但如果可以优化视图规范或从数据中学习，那将是令人兴奋的。此外，与先前的基于视图的方法相比，RVT（以及PerAct和C2F-ARM等基于显式体素的方法）需要校准从相机到机器人基座的外部函数。探索消除这一限制的扩展将是令人兴奋的。