自动驾驶3D目标检测综述（五）

本篇继前四篇（综述前六章）之后，开始第七章内容的介绍。前四篇的内容在我的主页可以看到，本篇从第七章时间3D目标检测开始介绍。

一、激光雷达序列的3D目标检测

（一）问题和挑战

（二）顺序扫描的3D目标检测

第七章时间3D目标检测

在这个章节中主要介绍时间三维目标检测方法。基于数据类型，可以将这些方法分成三类：雷达序列检测、流输入的检测和来自视频的检测。在第一节，我们会回顾采用顺序激光雷达扫描的三维目标检测方法。第二节会介绍采用流数据作为输入的检测方法。第三节我们会研究一种来自视频和多模态时间数据的三维目标检测。方法总述如下图：

方法分类表如下图所示：

一、激光雷达序列的3D目标检测

（一）问题和挑战

虽然大部分方法都聚焦于从一个单帧的点云中进行检测，但目前也存在许多方法采用的是多帧点云作为输入，这也是为了更精确的三维目标检测。这些方法尝试采用各种各样的时间模型工具融合多帧特征以达到解决时间检测问题，并且他们也因为将多帧目标点合并成一个单帧而能够获得更加完整的三维形状。时间三维目标检测已经在离线三维自动标签化的管道上取得巨大成功。然而，在机载应用中，这些方法依旧存在内存和延迟的问题，因为获取多帧信息必然带来额外时间和内容消耗，这种情况也会在模型于嵌入式设备上运行时变得更加严重。来自激光雷达序列的时间三维目标检测阐述如下图所示:

我们可以看到多帧点云首先通过一个三维目标检测器生成目标建议框，再通过时间聚合（如注意力机制、长短时记忆网络、图网络、Transformer）最后生成目标检测结果。

（二）顺序扫描的3D目标检测

大部分采用多帧点云的检测方法都使用建议级时间信息聚合。也就是说，三维目标建议框首先通过共享检测器从各个点云帧中独立生成，之后将各种各样的时间模型应用在目标建议框和各自RoI特征上来聚合来自不同框架的目标信息。采用的时间聚合模块包括时间注意、ConvGRU、图网络、LSTM（长短时记忆网络）以及Transformer。时间三维目标检测也被应用到三维目标自动标签化管道中。除了来自多帧的点云时间检测外，还有许多工作采用了顺序范围图像用以三维目标检测。

二、流数据三维目标检测

（一）问题和挑战

通过可旋转的激光雷达采集的点云数据本质上是一种流数据，其中激光雷达数据包在扫描中顺序记录。它通常需要50-100毫秒来旋转激光雷达传感器生成一个360°完整激光雷达扫描图，这也就意味着一旦点云图生成了，它就不再准确反映场景确切时间。这也就向自动驾驶应用提出了一项挑战，因为自动驾驶通常需要最小化反应时间以保证驾驶安全。许多人做出尝试，想要直接从流数据中检测三维目标。这些方法通常在活跃的激光雷达数据包上立刻检测出三维目标而不等到完整的扫描图构建完成。相比于采用完整激光雷达扫描图检测，流数据三维目标检测对车辆感知来说是一个更加精确和低延迟的解决方法。流数据三维目标检测方法阐述如下图所示：

（二）流3D目标检测

与多帧点云时间检测相似，流检测方法也将每个激光雷达数据包用作一个独立的样本来检测三维目标并应用实践模块到顺序包上学习包间关系。然而，一个激光雷达数据包通常不包含完整的点云信息并且来自单独一个包的信息通常不足以精确检测三维目标。为此，一些论文尝试为单独的包提供更多的上下文信息用作检测。已经提出的技术包括空间记忆库和一个多尺度上下文填充方案。

三、视频3D目标检测

（一）问题和挑战

视频是一种重要的数据类型并且在自动驾驶应用中易于获取。相比于基于单图像的三维目标检测，基于视频的三维目标检测很自然地得益于顺序图像的时间关系。当大量工作都聚焦于基于单图像的三维目标检测时，只有少量论文研究了视频三维目标检测的问题，这也给研究界留下了一项巨大的挑战。

（二）基于视频的3D目标检测

基于视频的检测方法通常通过在不同帧上追踪和融合相同目标来拓展基于图像的三维目标检测器。已经提出的追踪方法有LSTM以及三维卡尔曼滤波器。另外，也有一些工作采用视频和多帧点云以达到更精确的三维目标检测。这些方案提出了思维张量和时间融合以学习才来时间和多模态数据的特征。