在相机空间中落地动作：以观察为中心的视觉-语言-行动策略

25年8月来自浙大、上海AI实验室、商汤、南京大学和清华的论文"Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy"。

由于观察空间和动作空间之间存在固有差异，视觉-语言-动作 (VLA) 模型在泛化到现实世界环境时经常遇到挑战。尽管训练数据是从不同的摄像机视角收集的，但这些模型通常会在机器人基坐标系内预测末端执行器的姿态，从而导致空间不一致。为了弥补这一局限性，本文引入以观察为中心的 VLA (OC-VLA) 框架，该框架将动作预测直接基于摄像机的观察空间。OC-VLA 利用摄像机的外部标定矩阵，将末端执行器的姿态从机器人基坐标系转换到摄像机坐标系，从而统一不同视角的预测目标。这种轻量级的即插即用策略确保了感知和动作之间的稳健对齐，从而显著提高了模型对摄像机视角变化的适应性。所提出的方法与现有的 VLA 架构兼容，无需进行大量修改。对模拟和真实机器人操作任务的综合评估表明，OC-VLA 能够加速收敛，提高任务成功率，并提升跨视图泛化能力。

OC- VLA 如图所示：

视觉-语言-动作 (VLA) 模型已趋向于一种通用的架构模式 $3$ 、 $2$ 、 $5$ 、 $6$ ，其中动作预测建立在视觉-语言主干之上。遵循这一范式，采用轻量级的 300M VLA 模型 $6$ 进行评估，该模型仅使用第三人称摄像机图像和语言指令作为输入就展现出颇具竞争力的性能。具体而言，遵循 Dita $6$ 的思路，其中语言指令使用 CLIP 文本编码器 $55$ 进行编码，第三人称图像使用 DINOv2 $56$ 进行处理。语言指令通过配备 FiLM $58$ 调节层的 Q-Former $57$ 进一步选择和调节图像特征。

当前的 VLA 模型通常采用两种类型的动作空间之一进行末端执行器控制：离散动作空间 $2$ 、 $1$ 和连续动作空间 $3$ 、 $5$ 。为了全面评估提出方法的有效性，对使用两种动作空间的模型进行实验。基于基线架构，实现专门为离散动作预测或连续动作预测设计的变体。

以观察为中心的动作预测

在当前的机器人数据集中，动作/姿势标注通常定义在较低层级，例如机器人基础坐标系内的关节命令或末端执行器姿势。虽然这些表征被广泛用作视觉-语言-动作 (VLA) 模型的监督信号，但它们与特定的机器人具身配置紧密耦合，而非源自观察空间。因此，模型难以实现从图像观察到相应动作的合理映射，从而限制了模型的泛化能力，尤其对于与训练集中已见摄像机视图差异较大的新型摄像机视图而言。

为了将动作固定在观察空间中，首先需要将动作从机器人（世界）坐标系转换到摄像机坐标系。其利用摄像机的外参进行转换，同时可以得到摄像机坐标系下对应的位姿。然后，就可以在摄像机空间中获得相应的动作，最后将该动作转换为 7 维动作 ⟨x, y, z, roll, pitch, yaw, gripper⟩，用于模型优化，其中 gripper 表示夹持器的位置。与以往的末端执行器动作预测不同，本文方法预测的动作是在摄像机空间中。

在推理过程中，将摄像机空间中的动作转换到机器人坐标空间，以便基于摄像机标定进行机器人控制。

如图所示：OC-VLA 将末端执行器位姿（无论其定义在离散还是连续动作空间中）从机器人基坐标系转换到第三人称相机坐标系，从而统一了跨视点的观察和预测目标，有效地取代了使用共享世界动作作为预测目标的做法。

从优化角度的分析

在世界空间中，末端执行器的姿态和动作，都需要观察空间中的表征所驱动的相机变换矩阵 T。

具体而言，变换矩阵 T 会因不同的机器人设置而变化。例如，Droid $9$ 具有 1417 个不同的相机视点，这要求模型内部推断出每个视点的正确变换矩阵 T，才能在机器人的坐标系中准确预测动作。

此外，传统的感知任务基于 UV 坐标（图像坐标）。根据相机的内参函数，可以从 (X_cam, Y_cam, Z_cam) 获得 UV 坐标。给定本征矩阵 K，可以计算出图像坐标 (u, v)。

相机坐标可以直接从UV坐标推导出来，并且同一型号相机的内参通常保持一致。然而，将一个点从相机坐标系平移到机器人基坐标系需要相应的旋转矩阵，而该旋转矩阵会随着相机位置的不同而变化。因此，由于相机姿态的多样性，学习这种平移以用于机器人空间动作预测变得更具挑战性。相比之下，以观察为中心的动作预测本质上避免了这些问题，从而在观察和动作之间提供了更一致的映射。

如图所示：机器人基座坐标与相机基座坐标之间的动作转换。在训练过程中，动作从机器人基座坐标转换到相机基座坐标，并作为真实数据。在推理过程中，预测的动作从相机基座坐标转换回机器人基座坐标，以便在真实机器人上执行。

预训练数据

为了确保对出的方法进行全面、公正的评估，在选定的实验中加入了预训练阶段。预训练为模型提供了更强的初始化能力，这在处理复杂的多模态输入和多样化的视觉环境时尤其有益。由于方法基于第三人称视角，并且明确需要相机外参将以机器人为中心的动作转换为相机坐标系，因此选择包含此类标定信息的数据集至关重要。

为此，选择 Droid 数据集 $9$ 进行预训练。该数据集包含从 1417 个不同的第三人称相机视角捕获的机器人操作轨迹及其相应的外参，提供了广泛的视觉视角和运动模式。这种多样性使其成为评估以观察为中心的动作预测框架的泛化能力和鲁棒性的理想选择。除非另有说明，所有涉及预训练模型的实验均使用在 Droid 数据集 $9$ 上预训练获得的权重进行初始化。

模型细节

在实验中，采用典型的轻量级 VLM 架构，并针对连续和离散动作空间分别进行了设计。

对于连续动作空间模型，采用扩散策略。除了语言和图像 token 之外，还将当前时间步和受噪声扰动的动作连接起来作为因果transformer的输入。整个transformer的功能相当于扩散transformer (DiT) $39$ ，它通过多个步骤迭代地对输入进行去噪，以生成最终的末端执行器动作。

对于离散动作空间模型，在处理语言和图像输入后填充零向量以对齐动作大小。然后将组合后的序列输入到 Transformer 中。尽管在训练过程中使用了因果掩码，但该模型能够一次性预测整个动作序列，而不是进行自回归。这种设计增强了不同 token 之间的语义一致性和计算效率。

整体结构沿用 Dita 的设计，未做任何修改 $6$ ，如图所示。具体而言，该模型仅接受语言描述和来自第三人称摄像机的 RGB 图像作为输入。

语言描述使用预训练的 CLIP 文本编码器 $55$ 进行编码，而 RGB 图像首先调整为 224×224 的大小，然后通过预训练的 DINOv2 $56$ 视觉编码器进行处理。得到的图像特征被传递到一个 4 层 Q-Former $57$ ，用于减少图像 token 的数量并控制整体模型大小。图像 token 的数量减少到 32 个。Q-Former 是从头开始训练的。此外，每个 Q-Former 块中都注入了一个 FiLM 层 $58$ ，其中编码的语言嵌入用作条件输入，以指导视觉特征的选择和压缩。然后将处理后的语言和图像特征联合输入到 LLaMA2 风格的 Transformer $64$ 中，该 Transformer 生成最终的预测动作供机器人执行。该 Transformer 由 12 层组成，隐藏层大小为 768，并在因果掩蔽方案下运行。整个模型大小约为 334M 个参数，训练期间仅冻结 CLIP 文本编码器。

为了确保公平比较，在连续和离散动作空间实验中采用这种统一的架构，仅在 Transformer 组件的使用方式上略有不同。对于连续动作空间模型，遵循 Dita 并将 Transformer 视为扩散 transformer (DiT)。在训练期间，使用 100 时间步长的 DDPM 调度器 $59$ 对真实动作进行噪声扰动，然后将其与时间步长嵌入以及预处理的语言和图像特征一起输入到 DiT 中。训练 DiT 以预测添加的噪声。在推理过程中，用 10 时间步长的 DDIM 调度器 $60$ 进行高效去噪，先前的研究表明，该调度器能够在降低计算成本的同时保持强大的性能。对于离散动作空间模型，Transformer 不是自回归的，而是在一次前向传递中预测所有动作 token。首先将动作归一化到固定范围内，然后再进行 token 化。这种方案确保高效的推理，并明确地解耦各个动作 token 之间的依赖关系。

优化细节

训练目标因所用动作空间的类型而异。对于具有连续动作空间的模型，目标是最小化机器人动作（使用标准高斯噪声增强）与预测噪声之间的均方误差 (MSE)，使用 DDPM $59$ ，时间步长为 100。相比之下，对于具有离散动作空间的模型，机器人动作被归一化到预定范围内，并量化为离散区间。此处的目标是最小化预测的离散动作与真实标签之间的交叉熵损失。

对于扩散评估，在推理过程中使用时间步长为 10 的 DDIM $60$ 。使用 AdamW $61$ 对模型进行 30,000 步优化，因果 Transformer 和 Q-Former 的学习率为 1e-4，DINOv2 的学习率为 1e-5。训练在 8 块 NVIDIA A100 GPU 上进行，批次大小为 2048，每块 GPU 包含 256 个样本。该模型以第三人称视角的相机基准坐标系预测动作，而基线模型以机器人基准坐标系预测动作。

模拟数据集：为了进行模拟评估，选择 ManiSkill2 $62$ 来评估提出的方法的有效性和泛化能力。ManiSkill2 是原始 SAPIEN ManiSkill $63$ 基准测试的后继者，已成为评估具身智体在机器人操作中泛化性能的公认权威平台。同时，ManiSkill2 包含 20 个不同的任务系列，涵盖了广泛的现实世界操作场景。此外，ManiSkill2 支持从随机采样的摄像机视点渲染观测结果，使其成为评估的理想选择。

模拟设置：为了构建基准测试，从 ManiSkill2 套件中选择五个代表性任务：PickCube-v0、StackCube-v0、PickSingleYCB-v0、PickClutterYCB-v0 和 PickSingleEGAD-v0。生成一个包含 300,000 个随机配置的第三人称摄像机视点的数据集池。对于每条轨迹，会随机采样 20 台摄像机来渲染演示，从而生成一个包含 40,000 多条独特轨迹的数据集。用 19:1 的比例将生成的数据分成训练集和验证集。小心确保每个任务系列在两个集合中都有体现，并且从不同摄像机视点渲染的轨迹会分布在各个分割点上，从而防止数据泄露。为了解决数据不平衡问题，复制代表性不足任务系列中的轨迹，以在训练期间均衡各个任务的样本数量。对于闭环评估，从每个任务系列的验证集中随机采样 100 条轨迹，从而生成一个包含 500 条轨迹的评估集。此评估基准用于衡量模型在不同操作任务中的成功率。

真实设置：在真实的 Franka 机器人设置上评估 OC-VLA，该设置包括一个配备 Robotiq 2F-85 夹持器的 7 自由度桌面 Franka Emika Panda 机械臂，如图所示。三个 RealSense D435i RGB-D 摄像头被定位以从多个第三人称视角捕捉任务环境。具体来说，两个摄像头用于数据收集和小样本评估，而另一个摄像头则专门用于零样本评估。

真实数据收集和模型微调：采用基于演示的方法，分别使用训练摄像头 1 和训练摄像头 2 从不同视角收集两个数据集。对于使用摄像头 1 收集的数据集，记录了 15 个不同任务的轨迹，同时在整个数据收集过程中保持摄像头位置固定。相比之下，使用摄像头 2 收集的数据集包含 8 个任务的轨迹，在此期间对摄像头位置引入轻微扰动以模拟微小的视点变化。收集的任务涵盖了多种类别，包括拾取和放置、倾倒、堆叠、拾取和旋转、拉和推以及其他长周期任务，旨在全面评估模型的真实性能。遵循 Dita $6$ 的方法，对于两个数据集中的每个任务，都收集 10 条演示轨迹，旨在评估 10 次样本设置下的模型拟合能力。

对于模型微调，用在第三人称相机坐标系中定义的末端执行器动作或机器人基准坐标系中的末端执行器动作作为预测目标，对在 Droid 数据集上预训练的模型进行微调。这两个模型都使用 AdamW $61$ 进行了 20,000 步优化，批量大小为 512。为了进行公平的性能比较，还使用官方训练协议在收集的数据集上对 OpenVLA-OFT $2$ 和 π0 $5$ 的预训练版本进行微调。这些模型将作为评估的基准。

以观察为中心的视觉-语言-动作 (OC-VLA) 框架，利用第三人称相机的外部标定矩阵将末端执行器姿态从机器人基准坐标系转换为相机基准坐标系。然后将变换后的姿态用作模型的预测目标，从而使观察空间与动作预测目标对齐。所提框架的整体架构如图所示。该框架在训练阶段和推理阶段之间引入了细微的区别，主要包括以下几个关键步骤。在训练过程中，由于大多数机器人数据集中的末端执行器姿态都是在机器人基坐标系中定义的，首先应用第三人称相机的外部标定矩阵将姿态转换到相机坐标系中。然后将相机基坐标系中转换后的姿态作为监督学习的基准，使模型的预测目标与视觉观察空间对齐。在推理过程中，模型输出相机基坐标系中的末端执行器姿态。然而，现实世界的机器人系统通常需要以机器人基坐标系表示的姿态。为了弥补这一差距，应用一个后处理步骤，使用相同的外部矩阵将预测姿态从相机基坐标系转换回机器人基坐标系。然后将转换后的姿态发送给物理机器人执行。

该方法简单、高效、即插即用，无需额外的 GPU 开销，并且集成工作量极小。它在 VLA 系统中具有强大的实际应用潜力，尤其是在涉及多样化或动态相机视点的环境中。