论文阅读《Neural Map Prior for Autonomous Driving》

摘要

高精（HD）语义地图对于在城市环境中行驶的自动驾驶汽车至关重要。传统的离线高精地图是通过劳动密集型的手动标注创建的，不仅成本高昂，而且无法及时更新。最近，研究人员提出根据在线传感器观测来推断局部地图；然而，这种方法受到传感器感知范围的限制，并且容易受到遮挡。在这项工作中，我们提出了神经地图先验（NMP），一种全局地图的神经表示，有助于自动更新全局地图并提高局部地图推理性能。为了将强地图先验纳入局部地图推理，我们采用交叉注意力来动态捕捉当前特征和先验特征之间的相关性。为了先更新全局神经地图先验，我们使用基于学习的融合模块来引导网络融合以前遍历的特征。这种设计使得网络能够在连续的在线地图预测过程中预先捕获全局神经地图先验。在nuScenes数据集上的实验结果表明，我们的框架与各种地图分割和检测架构高度兼容，并且显著增强了地图预测性能，即使在恶劣的天气条件下和更长的时间范围内也是如此。据我们所知，这是第一个基于学习的预先构建全局地图先验的系统。

1 介绍

自动驾驶汽车需要高精（HD）语义地图来准确预测其他车辆的未来轨迹并安全行驶在城市街道上。然而，大多数自动驾驶汽车依赖于劳动密集型且昂贵的预先标注的离线高精地图，这些地图是通过复杂的流程构建的，涉及使用测绘车辆进行激光雷达扫描、全局点云对齐和手动地图元素标注。这些离线地图解决方案虽然精度较高，但是可扩展性有限，不支持路况发生变化时的及时更新。因此，自动驾驶汽车可能会依赖过时的地图，对驾驶安全产生负面影响。最近的研究探索了使用车载传感器观测数据（例如相机图像和LiDAR点云）学习高精语义地图的替代方法。这些方法通常使用深度学习技术来实时推断地图元素，解决与离线地图相关的地图更新问题。然而，推断地图的质量通常不如预先构建的全局地图，并且在恶劣的天气条件和遮挡情况下可能会进一步恶化。不同语义地图构建方法的比较如图1所示。

图1 语义地图构建方法的比较。传统的离线语义建图管道（第一行）涉及复杂的手动标注管道，并且不支持及时的地图更新。在线高精语义地图学习方法（第二行）完全依赖于车载传感器观测，容易受到遮挡。我们提出了神经地图先验（NMP，第三行），这是全局地图的创新神经表示，旨在帮助车载地图预测。随着NMP不断整合来自自动驾驶汽车的最新观测结果，它也会逐步更新。

在这项工作中，我们提出了神经地图先验（NMP），这是一种结合了两全其美优势的新型混合建图解决方案。NMP利用神经表征来预先构建和更新全局地图，从而提高自动驾驶汽车的地图推理性能。NMP过程包括两个主要步骤：全局地图先验更新和局部地图推理。全局地图先验是一种稀疏平铺的神经表征，每个平铺对应一个特定的现实世界位置。它是通过汇总自动驾驶汽车车队的数据而自动开发的。然后，机载传感器数据和全局地图先验被集成到局部地图推理过程中，随后完善地图先验。这些程序通过反馈回路相互关联，随着每天从道路上行驶的大量车辆收集到越来越多的数据，反馈回路也变得越来越强大。图2显示了一个示例。

从技术上讲，全局神经图先验被定义为从空状态初始化的稀疏图块。对于自动驾驶汽车的每次在线观察，神经网络编码器首先提取局部鸟瞰图(BEV)特征。然后使用从全局NMP地图tile推导的相应BEV先验特征来细化这些特征。改进的BEV特征使我们能够推断局部语义图并更新全局NMP。当车辆穿越各个场景时，局部地图推理阶段和全局地图先验更新步骤相互加强，提高了预测的局部语义地图的质量，并保持了更完整和最新的全局NMP。

我们证明NMP可以轻松应用于各种最先进的高精语义地图学习方法，以提高准确性。在公共nuScenes数据集上进行的实验表明，通过将NMP与尖端地图学习技术相结合，我们的流程可将HDMapNet的性能提高+4.32mIoU、LSS的性能提高+5.02mIoU、BEVFormer的性能提高+5.50 mIoU，并将VectorMapNet的性能提高+3.90mAP。

总而言之，我们的贡献如下：

我们提出了一种名为"神经地图先验"的新型建图范式，它结合了离线全局地图维护和在线局部地图推理，而局部推理仅需要与以前的单帧系统类似的计算和内存资源。
我们提出了简单有效的当前到先验注意力和GRU模块，以适应主流的高精语义地图学习方法，并提升其地图预测结果。
我们对nuScenes数据集上不同地图元素和四种地图分割/检测架构的方法进行了评估，并展示了显著且一致的改进。此外，我们的研究结果还表明，在恶劣天气条件和扩大感知范围等挑战性情况下取得了显著进展。

2 相关工作

基于激光雷达SLAM的建图方式。 自动驾驶系统需要了解道路地图元素，包括车道、人行横道和交通标志，才能在世界范围内行驶。此类地图元素通常由现有管道中预先标注的高精(HD)语义地图提供。当前大多数的高精语义地图都是在激光雷达点云上手动或半自动标注而来的，这些点云是从配备高端GPS和IMU的测绘车收集的激光雷达扫描合并而来的。SLAM算法是将激光雷达扫描融合为高精度和一致的点云的最常用算法。首先，为了匹配两个邻近时间戳的激光雷达数据，采用成对对齐算法，例如ICP、NDT及其变体，使用语义或几何信息。其次，准确估计自身车辆的姿态对于构建全局一致的地图至关重要，并且可以表述为非线性最小二乘问题或因子图。杨等人提出了一种在成对对齐因子约束下基于位姿图优化的城市地图重建方法。

论文阅读《Neural Map Prior for Autonomous Driving》

目录

摘要

1 介绍

2 相关工作