自动驾驶3D目标检测综述（七）

在本章节中，我们将会介绍驾驶系统中3D目标检测存在的一些严重问题。首先第一节，我们会回顾和分析三维目标检测以端到端方式和其他任务如追踪、策略预测、移动规划、定位一同训练的方法。第二节，我们会介绍为三维目标检测和自动驾驶所设计的仿真系统。第三节，我们会深入调查三维目标检测器和安全意识三维目标检测的鲁棒性话题。第四节，我们会回顾协同三维目标检测相关方法。

一、自动驾驶端到端学习

（一）问题和挑战

三维目标检测是感知系统重要的组成部分，三维目标检测器的性能将对跟踪、预测和规划等下游任务有着深远的影响。因此从系统的角度来看，将三维目标检测模型和其他感知任务及下游任务联合训练对自动驾驶来说是一个更好的选择。一项开放的挑战就是如何在一个统一的框架中涵盖到所有的驾驶任务并以端到端的方式联合训练这些任务。端到端自动驾驶阐述如下：

（二）联合感知和预测

有许多工作以端到端的方式学习感知和追踪三维目标并预测他们未来的策略。FaF等人提出的就是一项非常有意义的工作，他们提出了采用单个三维卷积网络联合推理三维目标检测、追踪和策略预测。这种设计模式被许多论文加以改进：例如Casas等人采用图信息，Li等人引入交互式Transformer，Zhang等人设计了一种时空交互网络，Wu等人提出了一种时空金字塔网络，Liang等人以一个圈完成所有任务，Phillips等人将定位任务也涵盖到系统中。

（三）联合感知、预测和规划

人们在将感知、预测和规划放入一个统一的框架的工作中作出了许多努力。相比于联合感知和预测的方法，整个系统能够从规划者的反馈中获益，这得益于将运动规划加入端到端管道中。人们提出了许多技术方法来改进这个框架，例如Sadat介绍了一种语义占用地图来生成可解释的中间表示，Wei等人将空间注意合并到框架中，Zeng等人提出了一种深度架构网络，Casa等人提出了无图方法，Cui等人提出了一组不同的未来轨迹。

（四）自动驾驶端到端学习

许多方法尝试构建一个完整的端到端自动驾驶系统，在这个系统中自驾车辆循环采用传感器输入并顺序执行感知、预测、规划和运动控制，最终为驾驶生成驾驶和速度信号。Bojarski等人首次引入这样的观点并采用卷积神经网络改进了基于图像的端到端驾驶系统。Xiao等人提出了采用多模态输入的端到端架构。Codevilla等人和Kendall等人分别提出了条件性模仿学习和深度强化学习端到端驾驶系统。

二、3D目标检测的仿真

（一）问题和挑战

三维目标检测模型通常需要大量数据进行训练。因为数据可以从真实场景中获取，现实世界数据往往难以长期构建。例如，交通事故或极端天气的场景很少被记录但对训练三维目标检测器的鲁棒性非常重要。仿真就是解决这种数据分布问题的可能解决方法，因为我们可以为这些罕见但重要的场景制造合成数据。仿真的一项开放挑战就是如何创造更多真实的合成数据。

（二）视觉仿真

人们已作出大量尝试去生成驾驶场景中真实相片的合成图像。那些方法的想法包括采用图引擎（Abu等人提出），采用纹理映射冲浪（Yang等人提出），使用真实世界数据（Chen等人提出），以及学习控制标签神经仿真器（Kim等人提出）。

（三）激光雷达仿真

除了生成合成图像，还有方法尝试通过仿真生成激光雷达点云。一些方法提出了新颖的点云提供机制，这主要通过模仿真实世界效果得到。一些方法采用真实世界实例来重建三维场景，其他论文聚焦于安全且重要的场仿真或者在不利天气情况下的场景。

（四）驾驶仿真

许多论文尝试构建一个交互式的驾驶仿真平台，在这里一辆虚拟的车辆能够感知并与虚拟环境交互，最终规划其演习。CARLA就是一个开创性的开源自动驾驶仿真平台。其他文章使用一种图引擎，或在驾驶仿真中采用一种数据驱动的方法。也有些工作仿真交通流或是通过仿真测试车辆的安全性。

三、3D目标检测鲁棒性

（一）问题和挑战

基于学习的三维目标检测器通常对多种攻击表现的很脆弱。以对抗方式向传感器输入中添加扰动或目标就会愚弄感知模型并导致误检。三维目标检测鲁棒性的一项开放性挑战就是发展实用的对抗攻击并防御的算法，这样的算法易于改进并能够应用于大部分检测模型中。

（二）激光雷达传感器上的对抗攻击

人们尝试了许多去攻击激光雷达传感器并使用对抗机器学习愚弄基于激光雷达的感知模型。Cao等人攻击激光雷达传感器并欺骗受害自动驾驶车辆前方的障碍物。为了达到目的，他们引入了一种新颖的算法来有策略地控制欺骗攻击来愚弄基于激光雷达的三维目标检测模型。Wicker等人研究了基于点的检测模型对抗攻击的问题。他们提出了一种迭代式显著遮挡方法来通过删除关键点生成对抗点云实例。Tu等人提出了一种生成物理上可实现的对抗性示例，这可以放置在车辆上，并使该车辆对基于激光雷达的三维目标检测器不可见。Sun等人研究了现存的基于激光雷达的三维目标检测模型常见弱点并发现激光雷达点云中被忽视的遮挡模式，这种模式使得车辆很容易受到欺骗攻击。他们深入提出了一种黑盒欺骗攻击方法，这种方法可以欺骗所有的目标检测模型。Zhu等人提出采用任意目标来攻击基于激光雷达的三维目标检测模型。为了实现这个目的，他们引入了一种方法来识别三维场景中的对抗位置，以致于放置在这些位置的任意目标可以欺骗激光雷达感知系统。：Li等人采用这样的事实，从移动车辆中收集的激光雷达点云需要基于移动策略的标注，所以他们提出使用对抗扰动来欺骗车辆的策略，这种扰动可以扭曲激光雷达扫描并欺骗三维目标检测器。Tu等人在激光雷达感知模型上执行对抗攻击，这是在多代理协作感知的设置下进行的。特别是，他们通过在从多代理交流系统中的攻击者这里发送一条对抗信息来实现欺骗代理的感知模型的目的。

（三）多模态该传感器输入对抗性攻击

除了攻击基于激光雷达的感知模型，还存在一些工作尝试同时在摄像头和激光雷达传感器上实施对抗性攻击。对抗性目标通过最优化生成并且可以用来攻击基于多传感器融合的三维目标检测模型中。Tu等人通过引入一种对抗性纹理网络在多模态感知模型上实施对抗性攻击，这种网络能够放置在车上并使这辆车对多模态感知系统不可见。具体而言，对抗性纹理首次以可区分的方式采用到激光雷达点和图像像素中，之后多模态输入通过基于融合的检测器传递，最终，对抗性损失可以被用来调整纹理网络参数。

四、协作3D目标检测

（一）问题和挑战

现存三维检测方法主要基于单辆自车。然而，一辆车检测三维目标必然导致两项挑战：远处物体的遮挡和稀疏性。为了解决这个问题，一些论文采用在多代理协作设置下进行检测，在这里一辆自车可以同其他代理进行交流，例如其他车辆或基础设施，并利用这些来自其他代理的信息改进感知精确性。协作感知的一项挑战就是如何恰当地平衡精度提升和通讯带宽要求。

（二）协作三维目标检测

协作检测方法融合多代理信息来增强一个三维目标检测器的性能。融合的信息可以是其他代理传感器的原始输入，这将花费少量通讯带宽并且对检测来说非常高效，并且这还可以压缩未来图，未来图会花费不可忽视的通讯带宽单通常导致更好的检测性能。也有论文研究何时与其他代理通讯以及与哪一个代理通讯。