自动驾驶3D目标检测综述（四）

在这个章节，我们主要介绍的是多模态的三维目标检测方法，其主要是融合了多个传感器输入。根据传感器的类型，我们可以这种方法分为三类：激光雷达和相机、雷达以及基于图融合的方法。我们总共会分三个子章节进行阐述，第一节会回顾和分析激光雷达和相机融合的多模态检测方法，包括基于早期融合方法的，中期融合和晚期融合的方法；第二节会研究雷达信号的多模态检测方法；第三节会引入高清地图多模态检测方法。方法的总述如下图所示：

我们可以看到，激光雷达和相机融合方法有三种：早期、中期和后期，其中中期融合方法最早出现，接下来是早期融合方法，最后是后期融合方法。除此之外还有基于图融合的三维目标检测方法和基于雷达融合的三维目标检测方法，其中基于图融合的方法早于基于雷达融合的方法出现。

一、激光雷达和相机融合的多模态检测

（一）困难和挑战

相机和激光雷达是三维目标检测中两个互补的传感器：相机提供可以从中提取出丰富语义特征的颜色信息，而激光雷达传感器专门用于三维定义并提供关于三维架构的丰富信息。人们已努力尝试过融合激光雷达和相机信息去进行精确的三维目标检测。由于基于激光雷达的检测方法比基于相机的方法效果更好，最先进的方法通常是基于激光雷达的三维目标检测器并尝试将图像信息融入激光雷达检测管道的不同阶段中。鉴于基于激光雷达和基于相机的检测系统较为复杂，将两种形式结合到一起必然会带来额外的计算开销和推理时间延长。因此，如何高效融合多模态信息仍然是一项开放的挑战。基于早期融合的三维目标检测方法分类如下表所示：

1、区域级知识融合

区域级知识融合旨在使用从图像中获取的知识缩小三维点云中候选目标区域。具体而言，一张图像首先经过一个二维模板检测器来生成二维边界框，之后二维框通过压缩成为三维视角下的截锥，这个三维视角截锥应用到激光雷达点云上以减少搜索空间。最终，只有被选择的点云区域才被应用激光雷达三维目标检测器。F-PointNet首次提出这种融合机制，并且在改进这种融合框架上做出了许多努力。Wang和Jia将一个三维视角下的截锥分成多个网格空间并在网格空间上应用卷积网络进行三维检测。Shin等人提出了一种新颖的几何一致性搜索；Paigwar等人引出了柱子表示；Du等人介绍了一种模型适配算法以找到每个截锥内部的目标点云。

2、点级知识融合

点级知识融合旨在使用图像特征增强点云。增强后的点云被放入一个激光雷达检测器以获得更好的检测结果。PointPainting就是这么一项开创性的工作，它采用基于图像的语义分割增强点云数据。具体而言，输入的图像经过一个分割网络以获得基于像素的语义标签，之后这个语义标签通过点到像素投影与三维的点相关联。最终，带有语义标签的点数据放入一个基于激光雷达的三维目标检测器。这种设计样式已经被许多文章采用：Xu等人、Sigmon等人和Meyer等人。除了语义分割，还存在其他尝试利用其他来自图像信息的工作，如深度图像完善（Yin等人）。

3、潜力与挑战

基于早期融合的方法专注于在图像信息经过激光雷达三维目标检测管道前用其增强点云数据。大部分的方法都与一系列的基于激光雷达的三维目标检测器兼容并且可以作为一个非常高效的预处理步骤来提高检测性能。然而，基于早期融合的方法通常是顺序执行多模态融合和三维目标检测，这将带来额外的推理时间延迟。鉴于融合步骤通常需要复杂的二维目标检测或语义分割网络的事实，由多模态融合带来的时间代价一般是不可忽视的。因此，如何在早期阶段高效执行多模态融合已成为一项重要的挑战。

（二）基于中期融合的3D目标检测

基于中期融合的方法尝试在基于激光雷达三维目标检测器的中间阶段对图像和激光雷达特征进行融合，例如在骨干网络时期、建议生成阶段或在兴趣区域改进阶段。这些方法也可以根据融合阶段进行分类。基于中期融合的三维目标检测方法的阐述如下图所示：

1、主干网络融合

人们在逐渐于骨干网络上融合图像和激光雷达特征上作出许多努力。在这些方法中，点到像素之间的联系首次被激光雷达到相机的转换建立起来，然后因为这种联系，来自激光雷达主干的特征能通过不同的融合算子与来自图像主干的特征进行融合。多模态融合可以在基于网格的检测主干的中间层进行，其拥有新颖的融合算子诸如连续卷积、混合体素特征编码以及Transformer。多模态融合也可以只在主干网络的输出特征映射上进行，采用包括门控注意、统一的目标查询、BRV池化、可学习的对齐、点到射线融合、Transformer和其他技术的融合模块和算子。除了基于网格的主干网络融合，还存在其他的文章将图像信息与基于点的检测骨干网络进行融合。

2、建议生成和兴趣区域头的融合

存在这样的一种方法，它在建议生成和兴趣区域改进阶段执行多模态特征融合。在这种方法中，三维目标建议首先从一个激光雷达检测器中产生，然后这些三维建议被投影到多种视角下，例如分别到图像视角和鸟瞰图，以分别从图像和激光雷达主干中裁剪特征。最后，经裁剪的图像和激光雷达特征在兴趣区域头中进行融合以为每个三维目标预测参数。MV3D和AVOD就是这样的开创性工作，它们采用多视角下的聚合作为多模态检测。其他的一些文章（Chen等人、Bai等人）使用Transformer解码器作为兴趣区域头部来进行多模态特征融合。

3、潜力和挑战

中期的融合方法支持更深层次的多模态表示融合并且能够生成更高质量的三维框。然而，相机和激光雷达特征本质上是异构的且来自不同的视角，所以在融合机制和视角对齐上仍然存在一些问题。因此，如何将异构的数据有效地融合以及如何处理多视角下的特征聚合仍然是研究界的一项挑战。

（三）基于后期融合的3D目标检测

1、框级别的融合

基于后期的融合方法在输出上进行操作，例如三维和二维边界框，分别从基于激光雷达的三维目标检测器和一个基于图像的二维目标检测器。后期融合的三维目标检测方法阐述如下：

在这些方法中，使用相机和激光雷达传感器的目标检测可以平行地执行，并且输出的二维和三维框被融合起来生成更多精确的三维目标检测结果。CLOCs（Pang等人提出）介绍了一种稀疏张张量，其包含了一对二维和三维的框并且从这个稀疏的张量中学习最终目标的置信度得分。Pang等人改进了这个方法，他们引入一种轻量级的三维检测器记录的图像检测器。

2、潜力和挑战

基于后期融合的方法专注于实例级别的聚合且仅在不同模式的输出上执行多模态融合，这也就避免了中间特征或者是输入点云间复杂的交互。因此，这些方法相比于其他方法更加高效。然而，没有了来自相机和激光雷达传感器的深度特征，这些方法就不能够融合不同模式下丰富的语义信息，这也就限制了这种方法的潜力。

二、雷达信号的多模态检测

问题和挑战 雷达是驾驶系统中一种重要的传感器类型。与激光雷达传感器相比，雷达在现实世界中有四项不可替代的优势：雷达对极端天气情况不那么敏感；雷达比激光雷达传感器更加便宜；雷达提供了额外的速度测量方法；雷达拥有更广泛的检测范围。然而，相比于激光雷达传感器生成的稠密点云，雷达仅能提供稀疏和噪声测量。因此，如何有效处理雷达信号仍然是一项重要的挑战。

雷达和激光雷达的融合 许多文章都尝试通过引入新的融合机制确保信息能够在雷达和激光雷达信号间传递以实现两种传感器形式的融合，包括基于体素的融合（Yang等人提出）、基于注意力的融合（QIan等人提出）、引入距离方位角多普勒张量（Major等人提出）、采用图神经网络（Meyer等人提出）、利用动态占用图（Wang和Goldluecke提出）以及引入思维雷达数据（Plaffy等人提出）。

雷达和相机融合 雷达和相机融合与激光雷达和相机融合极为相似，因为雷达和激光雷达数据都是三维点的表示。大部分雷达和相机融合的方法都通过改进现存的基于激光雷达的检测架构来处理稀疏雷达点且采用相似的融合策略作为基于激光雷达和相机的方法。

三、高清地图的多模态检测

问题和挑战 高清地图包含详细的道路信息例如道路形状、道路标识、交通信号和障碍物等。高清地图提供了周围环境丰富的语义信息且能够用作辅助三维目标检测的强大先验。如何有效融合地图信息到三维目标检测框架中已成为研究界一项开放的挑战。

地图信息的多模态检测 高清地图能够被转换成鸟瞰图表示并且与栅格化的BEV点云或特征图融合。这种融合可以通过简单串联栅格化点云和鸟瞰图的高清地图的通道、将激光雷达点云和高清地图填充进分隔开的主干网络和将两种传感器形式的输出特征图进行融合、或是仅仅过滤出那些没有落入相关地图区域的预测来实现。其他的图类型也被人们探索，例如可视化图（Hu等人提出）、矢量化图（Jiang等人提出）。

第六章基于Transformer的3D目标检测

在这个章节，我们介绍基于Transformer的三维目标检测方法。Transformer在许多计算机视觉任务中展现了突出的性能且人们在改进Transformer到三维目标检测方面也做出了许多努力。在第一节，我们从架构的角度回顾为三维目标检测量身定制的Transformer。在第二节，我们介绍一种在不同三维目标检测中Transformer的应用。

四、3D目标检测中Transformer架构

问题和挑战 当大部分三维目标检测器都是基于卷积架构的时候，现如今基于Transformer的三维目标检测器已经展现了巨大的潜力且占领了三维目标检测排行榜。相比于卷积网络，设计在Transformer中的查询键值对使得不同表示间的交互更为灵活，且自注意机制也使其拥有比卷积更大的接受域。然而，全连接的自注意拥有二次的时间和空间复杂度及输入的数量。当数据尺寸较小时训练Transformer会轻易地导致次优的结果。因此，定义合适的查询键值对三元组以及为基于Transformer的三维目标检测器设计专门的注意机制是至关重要的。

Transformer架构 三维目标检测中Transformer的发展已经经历三个阶段：（1）受到vanilla启发，带有特殊的注意机制的新Transformer被提出以获得三维目标检测中更强大的特征（2）受到DETR启发，基于查询的Transformer编码-解码设计被引入三维目标检测器中（3）受到ViT启发，基于批处理的输入和类似于Vision Transformer的架构被引入三维目标检测中。

在第一阶段，许多文章都尝试引入新颖的Transformer模块到传统三维检测管道中。在这些文章中，查询、键和值的选择非常灵活并且提出了新的注意力机制。Pointformer（Pan等人提出）引入Transformer到点主干中。它使用点特征和坐标作为查询并应用自注意力机制到一组点云中。Voxel Transformer（Mao等人提出）使用Transformer模块代替卷积体素主干网络，这里提出了稀疏子簇体素注意并应用在体素中。CT3D（Sheng等人提出）提出来一种新颖的基于Transformer的检测头，这也介绍了一种建议到点的注意机制和基于通道注意机制。

在第二阶段，许多文章提出了三维目标检测中如DETR的架构。它们采用一组目标查询并用这些查询与不同特征进行交互来预测三维框。DETR3D（Wang等人提出）介绍了目标查询并对每个查询生成了一个三维参考点特征。它们使用参考点聚合多视角下的图像特征作为键和值并在目标查询和图像特征之间应用交叉注意。最后，每个查询可以解码出一个检测的三维边界框。下面许多工作采用了目标查询和参考点的设计：BEVFormer（Li等人提出）从BEV网格中生成稠密查询。TransFusion（Bai等人）从初始检测中生成目标查询并在Transformer解码器上的激光雷达和图像特征上应用交叉注意。UVTR（Li等人提出）使用Transformer解码器中图像和激光雷达体素融合目标查询。FUTR3D（Chen等人）以一种统一的方式融合来自不同传感器的特征和目标查询。

在第三阶段，许多文章试图将视觉转换器的设计应用于 3D 对象检测器。继 Dosovitskiy等人和 Liu 等人之后，他们将输入拆分为补丁，并在每个补丁和不同补丁之间应用自注意力。SST Fan等人(2022)提出了一种稀疏Transformer，其中局部区域的体素被分组到一个补丁中，并将稀疏区域注意应用于补丁中的体素，然后应用区域移位来改变分组，从而生成新的补丁。SWFormer Sun等人(2022)通过多尺度特征融合和体素扩散进行改进。

五、3D目标检测中Transformer的应用

基于 Transformer 的 3D 检测器 Transformer 架构的应用已广泛应用于各种类型的 3D 对象检测器中。对于基于点的 3D 对象检测器，已经开发了基于点的 Transformer (Pan et al., 2021) 来替换传统的 PointNet 主干。对于基于体素的 3D 检测器，很多论文（Mao et al., 2021c; Fan et al., 2022; Sun et al., 2022）提出了一种新颖的基于体素的 Transformer 来代替传统的卷积主干。对于基于点体素的3D对象检测器，提出了一种新的基于变压器的检测头(Sheng et al.， 2021)，以更好地进行建议细化。对于单目 3D 对象检测器，Transformers 可用于融合图像和深度特征（Huang 等人，2022b）。对于多视图 3D 对象检测器，Transformers 用于融合每个查询的多视图图像特征（Li et al., 2022f; Wang et al., 2022b）。对于多模态 3D 对象检测器，许多论文（Bai et al., 2022; Li et al., 2022b; Chen et al., 2022a）利用 Transformer 架构和特殊的交叉注意机制来融合不同模态的特征。对于时间 3D 对象检测器，提出了时间通道 Transformer (Yuan et al., 2021) 来模拟 LiDAR 帧之间的时间关系。