来源:投稿 作者:橡皮
编辑:学姐
论文链接:https://arxiv.org/pdf/2305.14836.pdf
开源代码:https://github.com/qiantianwen/NuScenes-QA
摘要:
我们在自动驾驶背景下引入了一种新颖的视觉问答(VQA)任务,旨在根据街景线索回答自然语言问题。与传统的VQA任务相比,自动驾驶场景中的VQA提出了更多的挑战。首先,原始视觉数据是多模态的,包括分别由相机和激光雷达捕获的图像和点云。其次,由于连续、实时采集,数据是多帧的。第三,室外场景呈现出移动的前景和静态的背景。现有的 VQA 基准无法充分解决这些复杂性。为了弥补这一差距,我们提出了 NuScenes-QA,这是自动驾驶场景中 VQA 的第一个基准,包含 34K 视觉场景和 460K 问答对。具体来说,我们利用现有的 3D 检测注释来生成场景图并手动设计问题模板。随后,基于这些模板以编程方式生成问答对。综合统计数据证明,我们的 NuScenes-QA 是一个平衡的大规模基准,具有多种问题格式。在此基础上,我们开发了一系列采用先进 3D 检测和 VQA 技术的基线。我们广泛的实验凸显了这项新任务带来的挑战。
1.引言
自动驾驶是一个快速发展的领域,随着传感器技术和计算机视觉的进步,在提高交通安全、效率和可达性方面具有巨大的潜力。随着 3D 物体检测和跟踪的日益成熟,自动驾驶系统的挑战正在从传统的感知转向可解释性和可信性。在这种情况下,视觉问答(VQA)可以发挥关键作用。首先,它能够以问答形式验证感知能力,提高感知系统的可解释性。其次,自动驾驶场景中性能良好的VQA系统可以相互充当训练数据过滤器,以降低标记成本并提高感知系统的性能。例如,可以询问道路上是否有超过 10 个交通锥,并挑选出正面数据进行标记,以提高此类场景下的性能。最后,VQA的互动性和娱乐性可以增强智能驾驶系统的整体用户体验和参与度。
尽管 VQA 社区取得了显着进展,但在现有 VQA 数据集上训练的模型在解决自动驾驶场景的复杂性方面存在局限性。这种限制主要是由于自动驾驶场景和现有 VQA 基准之间的视觉数据差异造成的。例如,回答"停靠的公交车前是否有移动的行人?"这样的问题,需要准确定位和识别公交车、行人及其状态。这要求模型有效地利用多模态图像和点云的互补信息来理解复杂场景并从多帧数据流中捕获对象动态。因此,有必要在多模态、多帧和室外场景的背景下探索VQA。然而,现有的 VQA 基准无法同时满足所有这些条件,如图 1 所示。例如,虽然 3DQA和自动驾驶场景都侧重于理解对象的结构和空间关系,但 3D-QA 仅限于单模态(即点云)、单帧和静态室内场景。其他基准测试也是如此,例如 VideoQA和 EmbodiedQA。为了弥补这一差距,我们构建了第一个专为自动驾驶场景设计的多模态 VQA 基准,名为 NuScenes-QA。如图1所示,NuScenes-QA在视觉数据特征方面与所有其他现有VQA基准不同,这给VQA社区带来了新的挑战。
图 1:我们提出的 NuScenes-QA 在视觉数据方面与其他视觉问答 (VQA) 基准显着不同。与其他数据集不同,NuScenes-QA 是一个多模式、多帧、户外数据集,现有基准未完全捕获该数据集。
所提出的 NuScenes-QA 基于 nuScenes,这是一个流行的自动驾驶 3D 感知数据集。我们使用 CLEVR 基准作为灵感自动注释问答对。具体来说,我们将 nuScenes 中注释的每个关键帧视为一个"场景",并构建相关的场景图。对象及其属性被视为图中的节点,而对象之间的相对空间关系被视为边,这是根据nuScenes中注释的3D边界框计算的。此外,我们还手动设计了不同类型的问题,包括计数、比较、存在性等。例如,存在型问题的模板可以表述为"是否有任何 <A2> <O2> 与 <R > <A1> <O1>?",其中<A>、<O>和<R>代表不同类型的参数,即属性、对象和关系。基于这些构建的模板和场景图,我们采样不同的参数来实例化模板,并使用场景图来推断正确答案,从而自动生成问答对。注释构造的更多细节可以在第 3.1 节中找到。最终,我们从带注释的 nuScenes 训练和验证拆分中获得了 34K 场景的总共 460K 问题答案对,其中 377K 对用于训练,83K 对用于测试。数据统计的更多细节可以在3.2节中找到。
除了数据集之外,我们还使用现有的 3D 感知和视觉问答技术开发基线模型。这些模型可以分为三种类型:基于图像、基于 3D 点云和基于多模态融合。 3D 检测模型用于提取视觉特征并提供对象建议,然后将其与问题特征相结合并输入到问答模型中进行答案解码。虽然我们的实验表明这些模型优于仅使用问题作为输入的盲模型,但它们的性能仍然明显落后于使用真实输入的模型。这表明,仅结合现有技术并不能完全使模型能够理解复杂的街景并利用丰富的多模态视觉信息进行合理的问答。因此,NuScenes-QA 提出了新的挑战,我们希望未来的研究能够解决这些问题。
总的来说,我们的贡献可以总结如下:
-
我们在自动驾驶场景中引入了一种新颖的视觉问答任务,该任务评估当前基于深度学习的模型在多模态、多帧和户外场景中理解和推理复杂视觉数据的能力。为了完成这项任务,我们贡献了一个大规模数据集 NuScenes-QA,其中包含 34K 复杂的自动驾驶场景和 460K 问答对。
-
我们建立了多个基线模型并广泛评估了该任务的现有技术的性能。此外,我们还进行了消融实验来分析与该任务相关的特定技术,这为未来的研究奠定了基础。
2.相关工作
2.1 视觉问答
视觉问答 (VQA) 是一项具有挑战性的任务,涉及回答有关视觉输入的问题。它需要对计算机视觉和自然语言处理有深入的了解。 VQA 有多种可用的数据集,包括基于图像的数据集,如 VQA2.0、CLEVR和 GQA,以及基于视频的数据集,如 TGIF-QA和 TVQA。在基于图像的 VQA 模型中,早期的工作通常使用 CNN 来提取图像特征,并使用 RNN 来处理问题。然后,通过串联或其他操作获得的视觉和语言的联合嵌入被输入到解码器进行答案预测。最近,许多基于 Transformer 的模型,例如 LXMERT、ViLBERT和 VinVL,已经通过大规模视觉语言预训练实现了最先进的性能。与基于图像的 VQA 不同,VideoQA更注重从视频中挖掘时间上下文。例如,Jiang等人提出了一种问题引导的时空上下文注意网络,Qian等人建议在回答之前首先定位长期视频中的相关片段。
2.2 3D视觉问答
3D视觉问答(3D-QA)是VQA领域的一项新颖任务,专注于回答有关由点云表示的3D场景的问题。这是一个新兴的研究领域,由于其在机器人、自动驾驶和虚拟现实方面的潜在应用而受到越来越多的关注。与传统的 VQA 任务不同,3D-QA 需要模型理解室内场景中物体的几何结构和空间关系。最近,已经构建了许多 3D-QA 数据集。例如,基于 ScanNet的 3DQA 数据集手动标注了 6K 问答对。同样,ScanQA利用问题生成模型和手动编辑来注释相同视觉数据上的 41K 对。另一个值得注意的数据集是 FE-3DGQA,它通过密集注释问题中引用的对象边界框来提高任务的可解释性。尽管取得了这些进步,当前的 3D-QA 模型在解决更复杂的自动驾驶场景(涉及多模态、多帧和室外场景)时仍面临局限性。
2.3 自动驾驶中的视觉语言任务
语言系统可以在自动驾驶应用中发挥至关重要的作用,因为它们可以实现乘客和车辆之间的通信。近年来,一些开创性的工作探索了自动驾驶场景中语言引导的视觉理解任务。例如,Deruyttere 等人提出了 Talk2Car,这是第一个包含用自然语言编写的自动驾驶汽车命令的对象引用数据集。该命令的执行需要将它们映射到物理空间并提供 3D 边界框。此外,Wu 等人基于自动驾驶数据集 KITTI开发了一个具有可扩展表达式的基准,名为 Refer-KITTI。它旨在基于自然语言描述来跟踪多个目标。与他们的作品不同,我们提出的 NuScene-QA 有两个明显的区别。首先,与视觉基础和跟踪相比,回答问题是一项高级任务,不仅需要理解能力,还需要推理能力。其次,NuScenes-QA 提供了更丰富的视觉信息,包括图像和点云。
3.NUSCENES-QA数据集
我们的主要贡献是 NuScenes-QA 数据集的构建,我们将在本节中详细介绍。具体来说,在3.1节中,我们全面概述了数据集构建过程,包括场景图的开发、问题模板的设计和问答对的生成。我们还描述了我们采取的后处理步骤。在3.2节中,我们分析了NuScenes-QA数据集的统计特征,例如问题类型、长度和答案的分布。
3.1 数据构建
为了为 NuScenes-QA 数据集生成问答对,我们采用了受传统 2D 基准 CLEVR启发的自动化方法。该方法需要两种类型的结构化数据:从 3D 注释生成的场景图,其中包含对象类别、位置、方向和关系信息,以及手动设计的问题模板,指定问题类型、预期答案类型以及回答所需的推理它。通过组合这些结构化数据,我们自动生成问答对。然后通过后处理程序对这些对进行过滤和验证,以构建完整的数据集。图 2 说明了整个数据构建流程。
图 2:NuScenes-QA 的数据构建流程。首先,使用带注释的对象标签和 3D 边界框生成场景图。然后,我们手动设计问题模板,并用它们实例化问答对。最后,根据一定的规则对生成的数据进行过滤。
场景图构建。 场景图被定义为视觉场景的抽象表示,其中图中的节点表示场景中的对象,边表示对象之间的关系。因此,场景图包含了视觉场景的所有地面实况信息。在CLEVR中,视觉场景是由几个简单的几何形状组成的2D图像,场景图在图像的渲染过程中固有地存在。然而,在像nuScenes这样自然自动收集的驱动数据中,需要我们使用可用的注释来构建这样的场景图。
在nuScenes中,收集的数据以2Hz的频率进行注释,每个注释帧被称为"关键帧"。我们将每个关键帧视为 NuScenes-QA 中的一个"场景"。现有的注释包括场景中的对象类别及其属性,以及对象的 3D 边界框。这些带注释的对象及其属性直接用作图中的节点。然而,原始注释中没有提供对象之间的关系,因此我们开发了计算对象关系的规则。鉴于空间位置关系在自动驾驶场景中至关重要,我们定义了六种物体之间的关系,即前、后、左前、右前、左后和右后。为了确定对象关系,我们首先将 3D 边界框投影到 BEV(鸟瞰)空间上。然后,我们计算连接两个边界框中心的向量与本车前进方向之间的角度。这些关系是根据角度范围定义的。计算角度的公式为:
其中 𝐵𝑖 = [𝑥, 𝑦, 𝑧, 𝑥𝑠𝑖𝑧𝑒, 𝑦𝑠𝑖𝑧𝑒, 𝑧𝑠𝑖𝑧𝑒, 𝜑] 是对象 𝑖 的 3D 边界框,并且𝑉𝑒𝑔𝑜 = [𝑣𝑥, 𝑣𝑦, 𝑣𝑧] 代表本车的速度。根据角度 𝜃,两个对象之间的关系定义为:
我们定义汽车的前进方向为0°,逆时针方向为正方向。此时,我们可以将 nuScenes 的注释转换为我们需要的场景图,如图 2 的步骤一所示。
问题模板设计。 我们手动设计了问题模板来生成问题。例如,问题"停泊的公交车左前方移动的东西是什么?"可以通过模板"什么是 < A1 > < O1 > 的 < A2 > < O2 > 到 < R >?"进行抽象,其中"< A >"、"< O >"和"< R > "是在问题生成过程中可以实例化的参数,分别表示属性、对象和关系。另外,我们可以用另一种形式来表达上述模板,例如"< A1 >< O1 >的< R >有一个< A2 >< O2 >,它是什么"具有相同的语义。
NuScenes-QA 总共包含 66 个不同的问题模板,可分为 5 种问题类型:存在、计数、查询对象、查询状态和比较。此外,为了更好地评估模型的推理性能,我们还根据问题的复杂性将问题分为零跳和一跳。
具体来说,不需要任何推理步骤的问题,例如"<A> <O>的状态是什么?",是零跳的,而需要基于空间位置关系进行推理的问题,例如"什么" <A2> <O2> 到 <A1> <O1> 的 <R> 的状态?",是单跳。有关每个问题模板的完整详细信息可以在补充材料中找到。
问答对生成和过滤。 给定场景图和问题模板,实例化问答对非常简单:我们通过深度优先搜索选择问题模板并为其参数提供样本值,然后在场景图上推断出真实答案。此外,我们拒绝不适定或退化的问题。例如,如果为模板分配 < O1 >== 行人且 < O2 >== 汽车时场景不包含任何汽车或行人,则该问题是不恰当的"< O2 > 到 <R 的状态是什么" > < A1 > < O1 >?"。
值得一提的是,有很多不恰当的表达和组合需要后期处理,如图2的步骤四所示。例如,由于我们将自我汽车作为场景中的对象添加,因此它将以以下形式出现问题中的"我"。因此,在模板定义中,当我们将"me"分配给<O>时,可能会出现一些不恰当的表达,例如"the me"或"there is a me"。为了解决这个问题,我们对这些表达式进行了修改。其次,在实例化过程中,可能会出现一些不恰当的<A>+<O>组合,例如"站立的汽车"、"停放的行人"。我们手动检查并删除这些组合。此外,我们还删除了答案计数大于 10 的问题,以平衡答案分布。
3.2 数据统计
NuScenes-QA 总共基于 34,149 个视觉场景提供了 459,941 个问答对,其中来自 28,130 个场景的 376,604 个问题用于训练,来自 6,019 个场景的 83,337 个问题用于测试。据我们所知,NuScenes-QA 是目前最大的 3D 相关问答数据集,比 ScanQA(具有 41K 个带注释的问答对)等纯 3D 数据集大一个数量级。
问答分布。 图 3 显示了 NuScenes-QA 中问题和答案的各种统计分布。图 3(a) 说明我们的问题长度跨度较大(从 5 到 35 个单词不等),且分布相对均衡。问题的长度在某种程度上代表了其复杂性,因此,大范围的问题长度对模型提出了挑战。图 3(b) 和 3(c) 分别显示了答案和问题类别的分布。我们可以观察到 NuScenes-QA 是平衡的。例如,计数问题的答案几乎从 0 到 10 均匀分布。平衡的数据集可以防止模型学习答案偏差或语言捷径,这在许多其他 VQA 基准测试中很常见,例如 ScanQA和 VQA1.0。
图 3:NuScenes-QA 训练分组中问题和答案的统计分布。所有统计数据都说明了我们提出的数据集的平衡。
前四个词的问题分布。 在图 4 中,我们可视化了问题中前四个单词的分布,从中我们可以得出两个观察结果。首先,我们的数据分布是平衡的,如图 3 所示。其次,我们的问题涵盖多种视觉语义。为了回答这些问题,不仅需要了解行人、摩托车等对象类别,还需要了解它们的状态,例如移动或停车。我们问题中的语义复杂性也给模型带来了相当大的挑战。
图 4:前四个单词的问题分布。
4.方法
除了提出的数据集 - NuScenes-QA 之外,我们还提供了基于现有 3D 检测和 VQA 技术的多个基线。在第 4.1 节中,我们介绍了任务定义,在第 4.2 节中,我们介绍了我们提出的基线的总体框架。我们在 4.3 和 4.4 节中提供了模型组件的详细信息。
图 5:基线框架。多视图图像和点云首先由特征提取主干处理以获得 BEV 特征。然后,根据检测到的 3D 边界框裁剪对象嵌入。最后,这些对象特征与给定的问题一起输入问答头进行答案解码。
4.1 任务定义
给定一个视觉场景 𝑆 和一个问题 𝑄,视觉问答任务的目的是从答案空间 A = {𝑎𝑖 } 𝑁 𝑖=1 中选择一个最能回答问题的答案 𝑎ˆ。对于 NuScenes-QA 来说,由于其多模式和多帧性质,视觉场景的来源高度多样化。具体来说,𝑆由多视图图像𝐼、点云𝑃以及数据序列中当前关键帧之前的任何帧𝐼𝑖和𝑃𝑖组成。因此,任务可以表述为:
我们可以进一步将S分解为:
其中𝑇 是当前帧的索引,𝑡 是模型中使用的前一帧的编号。也可以仅使用单一模态数据,例如图像𝐼或点云𝑃。
4.2 框架概述
我们提出的基线的总体框架如图 5 所示,主要由三个组成部分组成。第一个是特征提取主干,其中包括图像特征提取器和点云特征提取器。第二个组件是用于对象嵌入的区域提议模块,最后一个组件是 QA-head,负责答案预测。
给定一个视觉场景,原始的自我汽车视图图像和点云首先被输入到特征提取主干中,并将特征投影到公共鸟瞰(BEV)空间中。然后,我们使用预先训练的检测模型推断出的 3D 边界框在 BEV 空间上裁剪和池化特征,获得 K 个目标提议特征。最后,QA模型将语言编码器提取的问题特征和对象特征作为跨模态交互的输入来预测答案。
4.3 输入嵌入
问题嵌入。对于包含 𝑛𝑞 个单词的问题 𝑄 = {𝑤𝑖 } 𝑛𝑞 𝑖=1,我们首先将其标记化并使用预先训练的 GloVe [33] 嵌入来初始化标记。然后将该序列输入单层双向长短期记忆网络(biLSTM)以进行单词级上下文编码。每个单词特征 w𝑖 由 biLSTM 的前向和后向隐藏状态的串联表示,表示为:
问题嵌入表示为 Q ∈ R 𝑛𝑞×𝑑 。
视觉特征提取。 我们遵循最先进的 3D 检测技术来提取视觉特征。如图5所示,提取可以分为两个流:多视点相机图像和LiDAR点云。对于多视图图像,我们首先采用经典的 ResNet 以 FPN作为主干来提取多尺度 2D 图像特征。然后,为了使特征具有空间感知能力,我们估计图像中 2D 点的深度,并使用受 LSS启发的视图transformer将它们提升为 3D 虚拟点。最后,在体素空间中沿Z轴进行池化操作,得到压缩的BEV featmap M𝐼 ∈ R 𝐻 ×𝑊 ×𝑑𝑚 。
对于给定的 LiDAR 点云,我们首先将 3D 空间划分为一组 3D 体素,然后将原始点云转换为二进制体素网格。之后,将 3D 稀疏卷积神经网络应用于体素网格来学习特征。与前面提到的多视图图像特征类似,我们沿 Z 轴进行池化操作以获得点云 BEV featmap M𝑃 ∈ R 𝐻 ×𝑊 ×𝑑𝑚 。使用图像 featmap M𝐼 和 LiDAR featmap M𝑃 ,我们可以将它们聚合以获得与许多检测工作一样的多模态特征图 M ∈ R 𝐻 ×𝑊 ×𝑑𝑚。
对象嵌入。 在 2D 检测工作之后,我们裁剪并合并边界框中的特征作为对象嵌入。然而,与 2D 图像中与坐标轴对齐的标准边界框不同,当将 3D 框投影到 BEV 空间时,我们获得一组旋转框,这些旋转框无法通过标准 RoI Pooling 处理。因此,我们进行一些修改,具体步骤详见算法1。首先,我们投影检测到的3D框𝐵 = [𝑥, 𝑦, 𝑧, 𝑥𝑠𝑖𝑧𝑒, 𝑦𝑠𝑖𝑧𝑒, 𝑧𝑠𝑖𝑧𝑒, 𝜑]进入BEV特征空间:
其中,𝐹𝑣、𝐹𝑜和𝑅𝑝𝑐分别表示体素因子、主干的尺寸因子和点云范围。除了航向角 𝜑 之外,盒子的所有参数都按照方程 6 转换到 BEV 空间。然后,根据边界框的中心和大小,我们可以轻松计算出四个顶点 𝑉 = {𝑥𝑖 , 𝑦𝑖 } 3 𝑖=0 。其次,我们使用航向角 𝜑 计算旋转后的顶点 𝑉 ′:
最后,我们使用点积算法来确定像素是否属于旋转后的矩形。然后,我们对矩形内所有像素的特征进行均值池化,以获得对象嵌入 O ∈ R 𝑁 ×𝑑𝑚 。
4.4 回答头和训练
我们采用经典的 VQA 模型 MCAN作为我们的答案头。它利用堆叠的自注意力层分别对语言和视觉上下文信息进行建模,并利用堆叠的交叉注意力层进行跨模式特征交互。随后,我们使用简单的 MLP 层将融合特征映射到答案空间以进行答案预测。
在训练阶段,我们使用预训练的离线 3D 检测模型的主干和检测结果来提取对象嵌入,如第 4.3 节所述。答案头是用标准交叉熵损失训练的。
5.实验
为了验证 NuScenes-QA 的挑战,我们评估本节中基线的性能。我们比较不同的基线设置,包括仅相机或仅激光雷达的单模态模型、相机-激光雷达融合模型和不同的应答头。此外,我们对基线的关键步骤进行了消融研究,包括 BEV 特征裁剪和池化策略,以及检测到的 3D 边界框的影响。
5.1 评估指标
NuScenes-QA 中的问题根据查询格式可以分为 5 类: 1)存在,查询场景中是否存在特定对象; 2)计数,要求模型对场景中满足问题指定的特定条件的物体进行计数; 3)物体,测试模型根据语言描述识别场景中物体的能力; 4)状态,查询指定对象的状态; 5)比较,要求模型比较指定的对象或其状态。此外,我们的问题还可以根据推理的复杂性分为两类:零跳(表示为H0)和一跳(表示为H1),如3.1节所述。我们采用Top-1准确率作为我们的评估指标,遵循许多其他VQA工作的实践,并分别评估不同问题类型的表现。
5.2 实施细节
对于特征提取主干,我们使用遵循原始设置的预训练检测模型。我们使用 ResNet-50作为图像编码器,使用 VoxelNet 作为 LiDAR 编码器。对于 BEVDet,体素大小和点云范围分别为 (0.1, 0.1, 0.2) 和 [-51.2, 51.2, -5.0, 51.2, 511.2, 3.0]。对于 CenterPoint 和 MSMDFusion,体素大小为 (0.075, 0.075, 0.2),点云范围为 [-54.0, -54.0, -5.0, 54.0, 54.0, 3.0]。 QA模型𝑑𝑚的维度设置为512,MCAN采用6层编码器-解码器版本。至于训练,我们使用 Adam 优化器,初始学习率为 1e-4,每 2 个 epoch 衰减一半。所有实验均在 2 个 NVIDIA GeForce RTX 3090 GPU 上以批量大小 256 进行。
5.3 定量结果
比较方法。 如4.1节所述,我们的任务可以分为三种设置:仅相机、仅LiDAR、相机+LiDAR。为了研究不同模式对问答性能的影响,我们选择一个代表性骨干作为每个设置的特征提取器。我们选择 BEVDet进行仅相机设置,它提出了一种将透视图特征显式编码到 BEV 空间的新颖范式,并且它与我们的流程高度兼容。对于仅 LiDAR 设置,我们选择 CenterPoint。它引入了基于中心的物体关键点检测器,在检测精度和速度上都表现出了优异的性能。对于多模态模型,我们采用 MSMDFusion,它利用激光雷达和相机之间的深度信息和细粒度跨模态交互,在单模型的 nuScenes 检测基准上实现了最先进的结果。
至于 QA-head,我们选择两个经典模型,BUTD和 MCAN。 BUTD 主张计算图像显着区域的自下而上和自上而下的注意力。 MCAN 堆叠自注意力和交叉注意力模块来对视觉语言特征交互进行建模。为了验证 QA 模型的上限,我们还使用完美的感知结果,即真实标签。具体来说,我们使用对象的 GloVe 嵌入及其状态作为对象特征。这些在表 1 中记录为 GroundTruth。此外,我们设计了一个 Q-Only 基线来调查语言偏差的影响。 Q-Only可以被认为是忽略视觉信息的盲模型。
结果与讨论。 根据表1所示的结果,我们有以下值得讨论的观察结果。
表 1:不同模型在 NuScenes-QA 测试集上的结果。我们评估整个测试分组以及不同问题类型的 top-1 准确性。 H0 表示零跳,H1 表示一跳。 C:相机,L:激光雷达。
-
显然,视觉数据在我们任务的执行中发挥着至关重要的作用。当将 Q-Only 基线与其他模型进行比较时,我们发现它仅达到 53.4% 的准确率,明显低于其他模型。例如,MSMDFusion+MCAN 的性能提高了 7%。这表明我们提出的 NuScenes-QA 表现出相对较小的语言偏差。换句话说,模型仅依靠语言快捷方式无法获得良好的性能,而是需要利用丰富的视觉信息。
-
参考表1的底部部分,我们可以看到,在单模态模型方面,基于LiDAR的CenterPoint表现优于基于摄像头的BEVDet,分别达到57.9%和59.5%的准确率。这种性能差距与 3D 检测一致,我们推测这是由数据特征决定的。图像具有更详细的纹理,而点云在空间表示方面表现出色。因此,性能差距在于NuScenes-QA更注重对对象的结构和空间关系的理解。另一方面,基于融合的模型 MSMDFusion 取得了最佳性能,准确率为 60.4%,证明相机和 LiDAR 数据是互补的。进一步的工作可以探索如何更好地利用多模态数据的补充信息。当然,与 Ground Truth(达到 84.3% 的准确率)相比,我们的基线还有很长的路要走。
-
参考表1的底部部分,我们可以看到,在单模态模型方面,基于LiDAR的CenterPoint表现优于基于摄像头的BEVDet,分别达到57.9%和59.5%的准确率。这种性能差距与 3D 检测一致,我们推测这是由数据特征决定的。图像具有更详细的纹理,而点云在空间表示方面表现出色。因此,性能差距在于NuScenes-QA更注重对对象的结构和空间关系的理解。另一方面,基于融合的模型 MSMDFusion 取得了最佳性能,准确率为 60.4%,证明相机和 LiDAR 数据是互补的。进一步的工作可以探索如何更好地利用多模态数据的补充信息。当然,与 Ground Truth(达到 84.3% 的准确率)相比,我们的基线还有很长的路要走。
-
横向比较表1,不难发现计数是所有题型中难度最大的。我们最好的基线模型仅达到 23.2% 的准确率,远低于其他问题类型。计数一直是视觉问答中的一个具有挑战性的问题,并且在传统的2D-QA中已经进行了一些探索。在未来的工作中,我们还可以引入计数模块来提高其性能。
5.4 消融实验
为了验证基线中不同操作的有效性,我们使用 CenterPoint+MCAN 基线组合对 NuScenes-QA 测试分割进行了广泛的消融实验。
边界框的影响。 大多数 2D 和 3D VQA 模型在对象嵌入阶段将视觉特征与对象边界框融合,使其具有位置感知能力。我们遵循这个范例并评估 NuScenes-QA 中 3D 边界框的影响。具体来说,我们将从检测模型获得的 7 维框 𝐵 = [𝑥, 𝑦, 𝑧, 𝑥𝑠𝑖𝑧𝑒, 𝑦𝑠𝑖𝑧𝑒, 𝑧𝑠𝑖𝑧𝑒, 𝜑] 投影到与对象嵌入相同的维度上使用MLP,并将两个特征连接起来作为最终的特征QA 负责人的输入。如表2所示,我们惊讶地发现不同数据上的性能差异很大。为groundtruth添加box特征可以将模型的准确率从70.8%提高到84.3%,显着提高13.5%。然而,添加检测到的框会使性能略微降低 0.6%,这是适得其反的。我们认为,这种现象可能是由两个原因造成的。一方面,当前的 3D 检测模型还不成熟,检测框中的噪声损害了 QA 模型。另一方面,XYZ表示的点云本身具有很强的位置表达能力,添加盒特征的增益并不显着。
BEV 特征剪裁策略。 如 4.3 节所述,由于 3D 边界框和 BEV 坐标轴之间的不平行,我们无法像传统 2D 图像那样执行标准的 RoI 池化。因此,我们使用点积算法来确定旋转框内的像素以进行特征裁剪。除了这种方法之外,我们还可以采用更简单的做法,直接使用旋转框平行于坐标轴的外接矩形作为裁剪区域。表3显示了这两种裁剪策略的性能比较,其中外接框略逊于旋转框。原因是 NuScenes-QA 包含许多细长的对象,例如公共汽车和卡车。这些物体在BEV空间中占据的面积很小,但它们的外接矩形却有很大的范围。较大的裁剪区域会使对象特征过度平滑,影响答题性能。
BEV 特征池策略。 在裁剪区域的特征池化策略方面,我们比较了经典的最大池化和平均池化操作。如表4所示,相同条件下Max Pooling的准确率达到58.9%,比Mean Pooling低0.6%。我们推测这种差异可能是由于最大池化侧重于区域内的纹理特征,而平均池化保留了整体特征。我们提出的NuScenes-QA主要测试模型理解街景中物体结构及其空间关系的能力,相对忽略了物体的纹理。因此,平均池化比最大池化稍微有优势。
6.结论
在本文中,我们将视觉问答(VQA)技术应用于自动驾驶的背景下。在分析现有VQA基准与自动驾驶场景之间的差异后,我们发现在传统2D和3D VQA数据集上训练的模型不能直接应用于街景数据。因此,我们构建了第一个针对自动驾驶场景的大规模多模态视觉问答基准测试NuScenes-QA。 NuScenes-QA是根据视觉场景图和问题模板自动生成的,包含34K场景和460K问答对。此外,我们基于最新的3D检测和VQA技术为其提供了一系列基线模型,并对其进行了大量的实验,为未来的研究奠定了坚实的基础。我们强烈希望NuScenes-QA能够推动VQA多模态交互的发展,推动自动驾驶应用技术的进步。
关注下方《学姐带你玩AI》🚀🚀🚀
回复"VQA"获取视觉问答顶会论文+源代码+数据集
码字不易,欢迎大家点赞评论收藏