自动驾驶3D目标检测综述（八）

在介绍完前九章的内容后，咱们已经基本完成了综述主题内容的解读。剩下只有第十章分析和展望以及第十一章总结的部分。本篇为自动驾驶3D目标检测综述的第八篇也将是最后一篇。

在这个章节中，我们会对三维目标检测方法进行一个系统的对比和分析，并对自动驾驶三维检测展望未来研究方向。在第一节中，我们对各种各样的三维目标检测方法的检测性能和推理速度进行综合性的分析，比如基于激光雷达的、基于相机的、多模态的方法，在我们多年进一步总结研究其趋势的多种数据集上。在第二节，我们提出了在此领域的未来研究方向。

1、研究趋势

我们全面综合性地收集了近几年各类型三维目标检测方法的统计数据。这些统计数据包含了三维目标检测方法在最广泛使用的数据集KITTI、nuScenes和Waymo上的性能和推理时间。下面三张表分别展示了三种数据集上的统计数据。通过分析这些数据，我们得到了三维目标检测研究趋势方面一些有趣的发现。

1.1 数据选择的趋势

在2018年以前，大部分方法都只在KITTI数据集上进行评估，并且他们采用的评估指标是二维的平均精确度（），他们通过将三维边界框投影到图像平面上再与地面实况二维框进行比较。从2018到现在，越来越多的文章采用三维或BEV平均精度（或，）这种方法是一种测量三维检测质量更加直接的指标。对于基于激光雷达的方法，基于KITTI数据集上的检测性能多年来迅速收敛，例如简单情况下的从71.40%增长到90.90%，甚至困难情况下的达到了79.14%。因此，从2019年起，越来越多的基于激光雷达的方法采用更大和更多种类的数据集，例如nuScenes和Waymo Open数据集。大尺度数据集也提供了更多有效的数据类型，例如由Waymo提供的原始图像促进了基于范围方法的发展。对于基于相机的检测方法，基于KITTI数据集的单目检测的从1.32%增长到23.22%，留下了巨大的增长空间。直到现在，仅有极少单目方法在Waymo数据集上进行评估。对于多模态检测方法，2019年以前的方法大多在KITTI数据集上测试，并且在那之后大部分文章转向了nuScenes数据集，因为它能够提供更多多模态的数据。

1.2 推理时间的趋势

Pointpillars以及达到了非常不错的推理时间（仅有16ms的延迟）并且它的架构已经被许多下面的工作采用。然而，就算有更加强大的硬件，推理速度并没有在这些年展现出很大的提升。这主要因为大部分方法都聚焦于性能提升而很少注意高效推理。许多文章都引入了新的模块到现存的检测管道中，这也带来了额外的时间代价。对于基于伪图像-激光雷达的检测方法，基于立体的方法以及大部分多模态方法，推理时间通常大于100ms，这并不能满足实时需求并有损于现实应用的发展。

1.3 基于激光雷达方法的趋势

基于激光雷达的三维目标检测这些年已经见证了巨大的进步。在基于激光雷达的方法中，基于体素和基于柱的检测方法取得了更优的性能，例如在KITTI数据集上Mao等人的工作取得了82.09%的中等情况以及Shi等人的工作取得了90.25%的简单情况。基于柱的检测方法尤其快，例如Lang等人的工作以60hz运行，但是检测精度通常比基于体素的方法更差。基于范围和基于BEV的方法也非常高效，例如Yang等人和Meyer等人仅需要30ms进行一轮推理。基于点的检测器能够取得一个不错的性能，但是他们的推理速度很大程度上收到样本和算子选择的影响。

对于基于点的三维目标检测器，中等情况下KITTI基准的AP已经从53.46%上升到79.57%。性能提升仅仅收到两个因素影响：更强健的点云样本和更强大的点云算子。点云样本的发展开始于Farthest Point Sampling（FPS），并且许多接下来的点云检测器已经基于FPS对点云样本进行了改进，包括基于融合的FPS，基于目标的FPS，坐标细化的FPS。一个好的点云样本能够产生拥有更好的全场景覆盖的候选点，所以它能够在点云稀疏时避免误检，这也能够帮助提升检测性能。除了点云样本外，点云算子也飞速发展，从标准的集合抽象到图算子和Transformer。点云算子在从点云中提取强大的特征表示中是非常重要的。因此强大的点云算子能够帮助检测器更好的获取有关三维目标的语义信息并提升性能。

对于基于网格的三维目标检测器，中等情况下的AP已经从50.81%提升到82.09%（KITTI基准下）。性能提升主要由更好的骨干网络和检测头驱动。骨干网络的发展经历了四个阶段：

1、二维网络处理由点云投影产生的BEV图像

2、处理通过PointNet编码产生的柱的二维网络

3、处理体素化点云的三维稀疏卷积网络

4、基于Transformer的架构

骨干设计的趋势就是去编码更多来自点云的三维信息，这也会导致更加强健的BEV表示和更好的检测性能，但是这些早期的设计由于其效率现在仍然流行。检测头设计已经经历了从基于锚点的头到基于中心的头的转变，并且目标定位能力也已经因为检测头的发展而得到提升。其他检测头设计例如IoU修正和序列头能够进一步促进性能提升。

对于基于点-体素的三维目标检测器，中等情况下的AP已经从75.73%提升到82.08%在KITTI基准上。性能的提升来自于更加强大的算子和模块，这些算子和模块能够有效融合点和体素特征。

对于基于范围的三维目标检测器，L1的平均精度（mAP）已经从52.11%提升到78.4%在Waymo Open数据集上。性能提升来自专门的算子设计，这样的算子能够更加高效地处理范围图像，以及试图变换和多视角聚合。

1.4 基于相机方法的趋势

基于相机的目标检测最近已经展现出快速的发展。在基于相机的方法中，基于立体图像的检测通常比单目检测方法表现好更多。例如，最先进的基于立体图像的方法在中等情况下能达到64.66%，而最先进的单目方法在同等情况下只能得到16.34%。这主要是因为来自立体图形的深度和视差估计比来自单目图像的更加精确，并且精确的深度估计在基于相机的三维目标检测中是最重要的因素。多相机三维目标检测已经因为BEV感知和Transformer的进步而进步飞速。最先进的方法在nuScenes获得了54.0%的mAP和61.9的NDS，而这已经优于一些有声望的基于激光雷达的三维目标检测器。

对于单目三维目标检测器，中等情况下的AP已经从1.51%增长到16.34%在KITTI基准上。单目三维目标检测的主要挑战就是如何从二维图像中获取精确的三维信息，因为定位错误决定检测错误。性能提升主要有更精确的深度预测驱动，这也是能够通过更好的网络架构设计来实现。（例如通过采用深度图像或伪图像-激光雷达点云）。You等人引入几何限制以及三维目标重构。

对于基于立体图像的三维目标检测器，中等情况下的AP已经从4.37%提升到64.66%在KITTI基准上。性能提升主要来自于更好的网络设计和数据表示。早期网络依靠基于立体图形的二维检测网络来产生成对的目标边界框并使用子网络预测以目标为中心的立体或深度信息。然而，这些以目标位中心的方法通常缺乏全球视差信息，而这将有损于在场景中的精确三维检测。之后，基于伪图像-激光雷达的方法从立体图形中产生视差图然后将视差图转换成三维的伪图像-激光雷达点云，这最后会被传入一个激光雷达检测器来执行三维检测。从二维视差图到三维点云的转换非常重要并且能够很大程度上促进三维检测性能的提升。许多下面的文章基于伪图像-激光雷达的范式并采用更江大的立体匹配网络以及端到端的立体匹配和激光雷达检测的训练改进了它。最近的方法将视差图转换成三维体积并将在体积上将其应用到基于网络的检测器上，这最终也得到了更好的性能。

对于多视角的三维目标检测，mAP已经从41.2%提升到54.0%在nuScenes数据集上。对于基于BEV的方法，性能提升主要来自于更好的深度预测。更精度的深度信息将产生更精确的相机到BEV的转换以致于检测性能得到提升。对于基于查询的方法，性能提升来自于更好的三维目标查询设计、更强大的图像的特征和全新的注意力机制。

1.5 多模态方法的趋势

多模态方法通常比单模态基线展现出性能提升但是付出了引入额外的推理时间代价。例如，多模态检测器比激光雷达基线性能高出8.8%mAP在nuScenes上，但是推理时间也提升了542ms相比于基线70ms。基于早期融合的方法问题更加严重，二维网络和三维检测网络以序列方式连接在一起。大部分多模态检测方法在KITTI数据集上进行设计和测试，在这个数据集上只有前视角的图像和相关点云被使用到。最近越来越多的方法被提出并且在nuScenes数据集上进行评估，这个数据集提供了多视角图像、点云和高清地图。

对于基于早期融合的方法，中等情况下的AP从70.39%提升到76.51%在KITTI基准上，并且mAP从46.4%提升到66.8%在nuScenes数据集上。对性能提升有两个关键的因素：知识融合和数据增强。从结果中，我们可以观察到点级别的知识融合通常比区域级的融合更加有效。这是因为区域级的知识仅仅减少检测范围，而点级别的知识融合能够提高细化的语义信息，这对三维检测非常有益。除此之外，连续的数据增强也能够有效促进检测性能提升。

对于基于早期和晚期的融合方法，中等情况下的AP从62.35%提升到89.67%在nuScenes数据集上。大部分方法聚焦于这三个重要的问题：在哪融合不同的数据表示，如何融合这些表示以及如何在点和图像像素之间如何建立可靠的对齐。对于在哪融合的问题，不同的方案尝试在不同的地方融合图像和激光雷达特征，例如三维骨干网络，BEV特征图，RoI（感兴趣区域）头和输出。从结果中可以观察到，在任何地方的融合对于基于单模态的基线都能够促进性能提升。并且在BEV空间的融合因为其性能和效率最近非常流行。对于如何融合的问题，融合算子的发展已经经历了简单连接，持续卷积，注意力和Transformer，并且Transformer的融合在所有的基准上都展现了优秀的性能。对于点到像素的对齐问题，大部分文章依靠固定的外在和内在函数来构建点到像素的联系。然而，由于遮挡和校准误差，这些联系非常嘈杂并且错位会降低性能。近期的工作规避了这个问题，他们直接融合相机和激光雷达BEV特征图，这对噪声具有更强的鲁棒性。

1.6 系统比较

考虑到所有的输入传感器和模态，基于激光雷达的检测是三维目标检测问题的最好解决方案，无论是速度还是精度方面。例如，Yin等人的工作中等情况下达到了80.28%并且在KITTI上以30FPS运行。多模态的检测建立在基于激光雷达的检测基础上，并且能够获得比激光雷达基线更好的检测性能，这也使其成为在准确性方面的最先进技术。基于相机的三维目标检测相较于激光雷达和多模态检测来说更加便宜和高效。尽管如此，基于相机的方法通常检测性能较差由于其来自图像的不精确深度预测。最先进的单目和立体检测方法在KITTI上。仅仅获得了16.34%和64.66%。最近多视角三维目标检测改进非常有发展可能。最先进的技术在nuScenes数据集上的mAP达到了54.0%，这是可以与一些经典的激光雷达检测器相媲美的。总而言之，在将速度和精度作为主要因素考虑时基于激光雷达和多模态的检测器是最好的方法，而将费用作为最重要的因素时基于相机的检测器将会是最好的选择，并且多视角三维检测器正在变得越来越有发展可能并且在未来可能比激光雷达检测器表现更好。

2 未来展望

通过所有回顾的文献和分析过去几年的研究趋势，我们现在可以对三维目标检测未来的研究方向作出一些预测。

2.1 开放集合三维目标检测

几乎所有现存的工作都是在相近的数据集上提出和评估，这样导致数据只能覆盖有限的架势场景并且注释进包含基础的类别，例如车辆、行人和骑行者。尽管这些数据集非常大且各种各样，他们对现实应用来说仍然不够充分，例如重要场景如交通事故和罕见类别如未知障碍物都是非常重要的但是并不包含在现存的数据集中。因此，现存在相近数据集上训练的三维目标检测器对处理这些重要场景的能力有限且不能识别为之种类。为了客服上述限制，设计一个能够从开放世界学习并识别广泛的目标种类的三维目标检测器将是一个有望的研究方向。Cen等人的工作就是开放集合三维目标检测一个很好的开端并且希望人们提出更多方法来解决这个问题。

2.2 更强可解释性的检测

基于深度学习的三维目标检测模型通常缺乏可解释性。因此，由于深度神经网络的黑盒特性，一些重要的问题如网络如何在点云中识别三维目标，遮挡和三维目标的噪声如何影响模型输出以及对于检测一个三维目标需要多少上下文信息，还没被很好地回答。另一方面，理解三维检测器的行为并回答这些问题非常重要，如果我们以一个更加强健的方式执行三维目标价并避免这些由黑盒检测导致的未曾预料的状况。因此，能够理解和解释现存三维目标检测模型的方法将会在未来研究中非常吸引人。

2.3 三维目标检测高效硬件设计

大部分现存工作聚焦于设计算法来解决三维目标检测问题，并且他们的模型通常在GPUs上运行。然而，不像图像算子那样高度适合GPU设备，点云和体素非常稀疏和不规则，并且常常采用的三维算子如集合抽象或三维稀疏卷积并不很好适合GPUs。因此，这些激光雷达目标检测器在现存硬件设备上并不能像图像检测器一样高效运行。为了解决这项挑战，设计一个硬件架构适合三维算子和三维目标检测任务的新颖设备是一项非常重要的研究方向并且将有利于现实世界部署。Lin等人的工作就是一项先锋性的加速了点云处理速度的硬件工作，并且我们相信将会有越来越多的文章发表在该领域。另外，新传感器，例如固态激光雷达，带有多普勒的激光雷达和四维的雷达也将启发三维目标检测器的设计。

2.4 端到端自动驾驶系统检测

大部分现存工作将三维目标检测视作一项独立的任务并尝试最大化检测指标例如平均精度。然而，三维目标检测与其他感知任务和下游任务如预测和规划密切相关，所以仅仅追求三维目标检测的高平均精度也许并不合适当我们将自动驾驶系统看作一个整体。因此，以一种端到端的方式执行三维目标检测和其他任务，并且从规划器的反馈中学习三维检测器将会成为三维目标检测的未来研究趋势。

第十一章结论

在这篇文章中，我们综合回顾并分析了自动驾驶三维目标检测的不同方面。我们从三维目标检测的问题定义、数据集和评估指标开始，之后我们介绍了基于传感器的三维目标检测方法不同的种类，包括基于激光雷达、基于相机以及多模态的三维目标检测方法。我们进一步调查了采用时间数据的三维目标检测，带有高效标签的学习，以及在自动驾驶系统中的应用。最后，我们总结了近些年的研究趋势并展望了三维目标检测未来研究方向。