RoboVQA：机器人多模态长范围推理

23 年 11 月来自 Google Deepmind 的论文"RoboVQA: Multimodal Long-Horizon Reasoning for Robotics"。

本文提出一种可扩展、自下而上且本质多样化的数据收集方案，该方案可用于长期和中期的高级推理，与传统的狭窄自上而下的逐步收集相比，其吞吐量提高 2.2 倍。通过在 3 栋办公楼内执行任何用户请求并使用多种具身（机器人、人类、带抓取工具的人类）来收集真实数据。通过这些数据，表明在所有具身上训练的模型比仅在机器人数据上训练的模型表现更好，即使仅对机器人episodes进行评估也是如此。

其探索收集成本的经济性，发现对于固定的预算，利用更便宜的人工收集和机器人收集是有益的。本文发布一个大型且高度多样化（29,520 条唯一指令）的数据集，称为 RoboVQA，包含 829,502 个（视频，文本）对，用于以机器人为中心的视觉问答。其还展示如何通过评估具有干预机制的真实机器人实验来实现任务的完成，使其即使不完善也可以在人工监督下部署，同时还提供单一的性能指标。

本文展示一个基于数据集训练的单一视频条件模型 RoboVQA-VideoCoCa，该模型能够在广泛的现实环境中执行各种落地的高级推理任务，认知干预率比零样本视觉-语言模型 (VLM) 基线低 46%，并且能够引导真实机器人完成长远任务。与零样本模型的性能差距表明，还需要收集大量落地的数据才能用于现实世界的部署，这强调对可扩展数据收集方法的迫切需求。视频 VLM 在所有 VQA 任务中的平均错误率降低 19%，明显优于单图像 VLM。由于视频条件和数据集的多样性，该模型可以用作需要识别动作而不是状态情况下的一般视频价值函数（例如成功和可affordance），从而扩展机器人的能力和环境理解。

数据

收集和数据集：如图所示从用户请求到 VQA 任务生成的收集过程。从 3 栋办公楼和 3 个具身中的所有长期任务中收集 episodes，从而产生 238 小时的视频（10 天）、5,246 个长期 episodes 和 92,948 个中期 episodes 。平均长期 episodes 持续 102 秒，中期 episodes 平均持续 14 秒。在实验中，对自由格式文本答案的评估是由人类执行的，因此故意将验证和测试集保持在较小的规模，每个大约有 1,000 个 VQA 条目（每个来自 50 个 episodes）。虽然训练和验证/测试之间的场景可能会重叠，但 episodes 没有重叠。

任务多样性：为了确保数据集和基准不会过拟合特定环境、领域或任务，收集广泛任务的示例，而传统的收集方式 [5] 中，研究人员和工程师会以自上而下的方式提前确定一个固定的小任务列表。在此选择自下而上的方法，其中大量任务由用户和遥操作员众包。这有利于广度和更好地与来自真实用户的请求分布保持一致。这导致任务多样性高（26,798 个独特的中期指令，2,722 个独特的长期指令）。

吞吐量和成本：如图所示大部分吞吐量增益来自以连续方式收集的中期 episodes，而无需重置场景或机器人。注：事后标记过程可以通过众包并行化，如果并行执行，则不会影响吞吐量，但它仍然是收集预算中的一项成本。然而，VQA 任务是免费生成的，它利用已知的过去和未来任务序列，并根据不同的已知语义点（例如，在执行中期任务之前或之后）及时定位问题。

思维链：将高级目标分解为定义的任务，使机器人能够在执行长期规划时体现其思维过程。此外，这些任务以自然语言问题和答案的形式提供，可以看作是一系列视觉问答 (VQA) 步骤。这种表述类似于语言模型提示的思维链 [6]。同时进行的工作有[7]，它表明模仿一步步的人类思维可以提高规划准确性。

模型

RoboVQA-VideoCoCa

训练一个名为 RoboVQA-VideoCoCa 的新模型，该模型源自 VideoCoCa 模型 [8]，这是一个扩展 CoCa [9] 的视频-语言模型。它使用一种编码器-解码器架构，结合视频和文本模态之间的对比预训练（如 CLIP [10]）和生成预训练（如 SimVLM [11]）。除非另有说明，用一个 383M 参数的 VideoCoCa 基础模型，其初始检查点在图像字幕任务上进行训练，并在 RoboVQA 视频文本数据集上视觉问题方面的重要性，并发现视频条件的实质性好处。

基线

为了与微调模型进行比较，考虑以下最先进的基线，它们在视觉问答和机器人规划方面具有类似的功能。

PaLM-E [3] 是一个基于预训练的 ViT [12] 和 PaLM [2] LLM 模型构建的视觉语言模型，它将图像投影到预训练的 LLM 的标记嵌入空间中。

规划方法。尝试四种基线规划方法：其中两种使用 RoboVQA-VideoCoCa 和 PaLM-E（零样本）作为端到端规划模型。作为另外两个基线，采用 SayCan [5] 和 Grounded Decoding [13] 的方法，它们使用纯文本 LLM（PaLM [2]）进行短语级或 token 级解码，由视觉 affordance 函数引导（使用 RoboVQA-VideoCoCa 作为 affordance 的视频价值函数）。

基准

VQA 基准

我们首先评估模型在各个任务上的表现，其中每个任务由一个视频片段和一个问题组成。使用精确匹配将推理结果与存储在中央数据库中先前人工评估结果进行比较，以确定视频问题对的正确/不正确。然后收集未找到匹配的推理结果供人工评估者评估。在评估过程中，向人工评估者展示与模型呈现的精确视频片段和问题。要求评估者将模型生成的答案标记为正确或不正确，在这种情况下，评估者可以提出正确答案。所有答案都添加到数据库中，并相应地标记每个答案的正确性。

带干预的规划基准

干预：如图所示，提出 3 种不同的长期规划评估。每个评估都通过干预率来衡量，将其进一步分解为高级文本域的认知和低级运动命令域的物理。然而，所有进展都可以用平均认知和物理速率的单一干预率来衡量。当物理动作是遥操作（100% 物理干预）时，这种区别很有用，可以将高级评估与低级评估分离开来。由于 RoboVQA 数据集非常广泛且多样化，需要一个可以测试整个范围的评估程序。然而，当前的低级策略往往只在非常狭窄的领域中执行，因此这种解耦能够在评估 #1 和 #2 中测试所有任务。

离线视频结果：在评估 #1 中，在来自 RoboVQA 数据集的 100 个长期 episodes（机器人和人类）上运行模型，总共有 854 个规划步。模型被赋予长期指令，需要输出中期规划，这些计划由人类评分。注：SayCan 和 Grounded Decoding 基线的推理时间很慢，这使得它们不适合在实时环境中运行（因此未在其他评估中显示）。同样，PaLM-E 562B 模型的推理时间对于实时来说太慢（30 秒），因此在这里使用较小的版本。注：尽管模型小了 30 倍，但它的性能比最先进的模型高出 46%。