用于自动驾驶的基于深度学习的图像 3D 物体检测：综述

论文地址：https://ieeexplore.ieee.org/abstract/document/10017184/

背景

准确、鲁棒的感知系统是理解自动驾驶和机器人驾驶环境的关键。自动驾驶需要目标的 3D 信息，包括目标的位置和姿态，以清楚地了解驾驶环境。

摄像头传感器因其颜色和纹理丰富且价格低廉而广泛应用于自动驾驶中。摄像头的主要问题是缺乏了解 3D 驾驶环境所必需的 3D 信息。此外，物体的尺度变化和遮挡使得 3D 物体检测更具挑战性。许多基于深度学习的方法（例如深度估计）已经被开发来解决 3D 信息的缺乏。

为了实现完全自动驾驶，感知系统（例如 3D 目标检测）需要能够在恶劣天气下正常工作，准确地提供有关驾驶环境的精确信息，并能够在高速驾驶时实现快速决策。建立一个能够准确给出驾驶环境的精确信息、快速做出高速驾驶决策、并且能够在恶劣天气下工作的感知系统对于实现完全自动驾驶的目标至关重要。

有多种不同的 3D 传感器可用于 3D 物体检测，例如光检测和测距 (LiDAR)、无线电检测和测距（雷达）以及深度传感器（RGB-D 相机）。
LiDAR： 更加能适应恶劣天气，但数据非结构化且稀疏，使得激光雷达处理更具挑战性。此外，激光雷达基于颜色的检测能力较差，而且价格昂贵。
RADAR： 适合在恶劣天气和夜间驾驶时使用。然而，分辨率较低，因此基于雷达的目标检测效果较差。
CAMERA： 价格低廉，并且具有丰富的颜色和纹理信息。但缺乏高精度的深度信息。

单目相机缺乏深度信息的问题可以使用立体相机或运动结构来部分解决。预测立体实例分割是解决 3D 目标检测单目深度问题的另一种技术。此外，一些工作将图像转换为伪激光雷达表示以解决深度信息的缺乏。

目标检测概述

目标检测类别

基于图像的 3D 目标检测模型使用 2D 目标检测作为基础模型，并使用不同的技术（例如回归）扩展到 3D 目标检测。因此，先从 2D 目标检测开始理解。

基于深度学习的通用目标检测方法可以分为两类：两阶段和一阶段。

两阶段目标检测网络具有用于生成候选区域的感兴趣区域（ROI）网络和用于 BBox 回归和分类的后续网络，如下图所示：

R-CNN [1]、SPPNet [2]、Fast R-CNN [3]、Faster R-CNN [4]、RFCN [5] 和 Mask R-CNN [6] 是两阶段 2-D 的示例目标检测模型。

$1\] R. Girshick, J. Donahue, T. Darrell, and J. Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2014, pp. 580--587. \[2\] K. He, X. Zhang, S. Ren, and J. Sun, "Spatial pyramid pooling in deep convolutional networks for visual recognition," IEEE Trans. Pattern Anal. Mach. Intell., vol. 37, no. 9, pp. 1904--1916, Sep. 2015. \[3\] R. Girshick, "Fast R-CNN," in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Dec. 2015, pp. 1440--1448. \[4\] S. Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: Towards realtime object detection with region proposal networks," in Proc. Neural Inf. Process. Syst. (NIPS), 2015, pp. 1--9. \[5\] J. Dai, Y. Li, K. He, and J. Sun, "R-FCN: Object detection via regionbased fully convolutional networks," 2016, arXiv:1605.06409. \[6\] K. He, G. Gkioxari, P. Dollár, and R. Girshick, "Mask R-CNN," in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), 2017, pp. 2961--2969.$

Waymo 开放数据集通过将航向信息合并到常见的评估指标（例如 AP）中，使用 3D 目标检测评估指标 APH：
A P = 100 ∫ 0 1 max ⁡ { p ( r ′ ) ∣ r ′ ≥ r } d r A P H = 100 ∫ 0 1 max ⁡ { h ( r ′ ) ∣ r ′ ≥ r } d r AP = 100 \int _0^1 \max\{ p(r^{'})|r^{'} \geq r\} dr \\ APH = 100 \int_0^1 \max \{ h(r^{'})|r^{'} \geq r\} dr AP=100∫01max{p(r′)∣r′≥r}drAPH=100∫01max{h(r′)∣r′≥r}dr

其中 p ( r ) p(r) p(r) 是精度/召回率曲线。此外， h ( r ) h(r) h(r) 的计算方式与 p ( r ) p(r) p(r) 类似，但每个 TP 都通过航向精度进行加权，航向精度可以定义为 min ⁡ ( ∣ θ ~ − θ ∣ , 2 π ∣ θ ~ − θ ∣ ) / π \min (| \tildeθ −θ|, 2π| \tilde θ −θ|)/ \pi min(∣θ~−θ∣,2π∣θ~−θ∣)/π，其中 θ ~ \tildeθ θ~ 和 θ θ θ 分别是预测航向和真实航向，以弧度为单位，在 [ − π , π ] [−π, π] [−π,π] 范围内。大多数自治数据集遵循 KITTI 或 nuScenes 评估指标。

图像 3-D 目标检测方法以及各种方法的比较

自动驾驶汽车（AV）必须清楚地了解驾驶环境才能可靠驾驶。由于缺乏准确的深度信息，3D 目标检测对于基于图像的方法来说更具挑战性。已经提出了不同的方法来估计 2D 图像的深度，以使用估计的深度来检测 3D 中的目标。其中一些方法使用两阶段对象检测方法，首先生成目标建议并执行回归以进行 3-D BBox 检测和分类。

经典的目标检测方法使用 handcrafted methods 生成二维框 proposals。其他人利用深度神经网络的能力从图像中学习复杂的特征来生成二维框 proposals。类似地，框 proposals 可以从几何约束、PseudoLiDAR 或立体深度估计生成。

由于缺乏深度信息，基于图像的 3D 目标检测更具挑战性。大多数深度估计技术可以分为伪激光雷达、立体图像，技术可以分为伪激光雷达、立体图像或基于几何约束，例如目标的形状和关键点来估计深度。

Pseudo LiDAR 方法从图像生成点云数据，并使用基于 3-D LiDAR 的方法进行检测。尽管这些方法优于仅图像方法，但由于图像到激光雷达的生成误差，它们的精度仍然低于基于激光雷达的方法。基于立体图像的方法使用左右图像视差来估计深度估计。与单图像方法相比，这些方法还提高了 3D 目标检测性能。有些作品还通过生成虚拟图像从单个图像生成立体图像，其性能优于单图像方法。其他工作使用几何约束来估计单个图像的深度信息。

伪激光雷达方法

有些作品将单目或立体图像转换为称为伪 LiDAR 的 LiDAR 表示，以解决深度信息的缺乏[12] [13] [14] [15] [16] [17]。

伪激光雷达是通过预测每个图像像素的深度来表示图像的激光雷达，称为深度图。

$12\] Y. You et al., "Pseudo-LiDAR++: Accurate depth for 3D object detection in autonomous driving," 2019, arXiv:1906.06310. \[13\] X. Weng and K. Kitani, "Monocular 3D object detection with pseudoLiDAR point cloud," in Proc. IEEE/CVF Int. Conf. Comput. Vis. Workshop (ICCVW), Oct. 2019, pp. 857--866. \[14\] Y. Wang, W.-L. Chao, D. Garg, B. Hariharan, M. Campbell, and K. Q. Weinberger, "Pseudo-LiDAR from visual depth estimation: Bridging the gap in 3D object detection for autonomous driving," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 8445--8453. \[15\] X. Ma, Z. Wang, H. Li, P. Zhang, W. Ouyang, and X. Fan, "Accurate monocular 3D object detection via color-embedded 3D reconstruction for autonomous driving," in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 6851--6860. \[16\] R. Qian et al., "End-to-end pseudo-LiDAR for image-based 3D object detection," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 5881--5890. \[17\] J. M. U. Vianney, S. Aich, and B. Liu, "RefinedMPL: Refined monocular PseudoLiDAR for 3D object detection in autonomous driving," 2019, arXiv:1911.09712.$