自动驾驶3D目标检测综述（三）

由图可以看到，基于立体图像和先验引导的3D目标算子最早被提出（2015年），紧接着是深度信息辅助的算子（2018年），再是仅基于图像的算子（2019），最后是多相机的3D目标算子（2021）。其中基于先验引导的算子方法最多，截止2022年共有19种不同的方法提出；基于多相机的算子方法最少，截止2022年仅有两种方法，分别是DERT3D和ImVoxelNet。

一、单目3D目标检测

单个图像所提供的深度信息有限（甚至可以说从单图像上无法获取深度信息），这也就导致了在3D空间中使用单图像进行目标检测非常困难。主要困难还是准确地预测3D目标的位置。虽然科学家们也在解决这个问题方面做出了很大的努力，例如例如几何约束和形状先验的方法从图像中推断深度信息，但问题仍未得到很好解决。单目的3D检测方法依旧比基于雷达的方法效果更差，这也是由于3D定义的能力较差，这也为整个研究界留下了一个开放性的挑战。

（一）仅基于图像的单目3D目标检测

启发于2D的检测方法，单目3D目标检测的一种直接的解决方案就是通过卷积神经网络从图像中回归得到3D边界框参数。这种直接回归的方法也就很自然地向2D检测网络架构借用了一些设计思路，并且能够以端到端的方式进行训练。这些方法能够被分为单阶段/两阶段或者基于锚点/无锚点的方法。仅基于图像的单目3D检测方法示意如下图所示：

可以看到分别是单阶段基于锚点的方法、单阶段无锚点和两阶段的方法。下面会详细介绍。

下图是这两种方法分类图：

1、单阶段基于锚点的方法

基于锚点的单目检测方法依靠的是一种置于每一个图像像素的2D到3D锚点框，并且使用了一种2D卷积神经网络从锚点中回归得到目标参数。每一个像素表示为[u,v]，3D锚点框[,,,]，分别代表宽（width）、高（height）、长（length）和偏转角度。2D边界框[,]，分别表示宽和高，深度信息锚点是预先定义好的。一张图像首先通过卷积网络预测3D边界框的偏移量=[,,,,,,,]和2D边界框偏移量=[,,,]。于是，2D边界框=[x,y,w,h]可以解码为：