经典文献阅读之--U-BEV(基于高度感知的鸟瞰图分割和神经地图的重定位)

0. 简介

高效的重定位对于GPS信号不佳或基于传感器的定位失败的智能车辆至关重要。最近，Bird's-Eye-View (BEV) 分割的进展使得能够准确地估计局部场景的外观，从而有利于车辆的重定位。然而，BEV方法的一个缺点是利用几何约束需要大量的计算 。本文《U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization》提出了U-BEV，一种受U-Net启发的架构，通过在拉平BEV特征之前对多个高度层进行推理，扩展了当前的最先进水平。我们证明了这种扩展可以提高U-BEV的性能高达4.11%的IoU。此外，我们将编码的神经BEV与可微分的模板匹配器相结合，在神经SD地图数据集上执行重定位。所提出的模型可以完全端到端地进行训练，并在nuScenes数据集上优于具有相似计算复杂度的基于Transformer的BEV方法1.7到2.8%的mIoU，以及基于BEV的重定位超过26%的召回率。

图1：U-BEV提出了一种新颖的BEV表示方法，通过环视图像实现在SD地图数据中高效的神经定位。

1. 主要贡献

在这项工作中，我们提出了一种新的方法来估计BEV（鸟瞰图），利用高度感知特征嵌入，使网络能够在深度维度上进行推理，而无需进行繁重的计算。基础架构受到了众所周知的U-Net结构的启发，并且由于整个模型中存在跳跃连接，可以保留细节。我们主张采用两步定位方法，自主代理首先在几米范围内全局估计其位置，然后依赖于局部方法获得应用所需的精度 。因此，我们利用轻量级的标准定义（SD）地图数据，并旨在实现一次性重定位精度在10米以下 。在这项工作中，我们将BEV表示与深度模板匹配器相结合，后者是端到端可训练的，用于实时重定位。定位架构可以通过将BEV方法和相应的地图数据编码为神经表示来处理任意BEV方法。这项工作将U-BEV与重定位模块相结合，优于nuScenes数据集上其他BEV方法和当代基于BEV的定位，其在10米处的召回准确度提高了26.4%。总之，本文提出了以下贡献：

一种新的轻量级U-BEV架构，其在几何上受到限制，并利用地面点的高度而不是它们相对于摄像机的深度。
一种端到端可训练的实时全局定位算法，用于神经BEV和神经编码的SD地图之间的定位。
在nuScenes数据集上改进了BEV（IoU提高了1.7到2.8）和定位性能（在10米处的召回准确度提高了26.4%）。

2. 方法

提议的完整算法在SD地图中定位一组环视图像 。它从环视图像生成局部BEV表示，并从SD地图瓦片中生成神经地图编码 ，给定来自车载传感器（例如嘈杂的GPS信号和指南针）的粗略3D位置先验。然后，深度模板匹配器将局部神经BEV滑动到全局神经地图上，生成相似度图。定位最终通过返回相似度图的Soft-Argmax完成。我们的方法概述如图2所示。

图2：U-BEV神经重定位模型概述。U-BEV从一组周围摄像头中预测局部BEV。预训练的编码器从中提取特征，生成神经BEV（左侧）。地图编码器根据位置先验𝜉𝑖𝑛𝑖𝑡（右侧）从裁剪的全局SD地图中提取特征，构建神经地图表示。深度模板匹配模块（QATM）计算最佳匹配位置（中间）。

3. 鸟瞰图重建

我们提出了一种新颖的轻量级且准确的BEV架构，用于从一组环视图像中重建车辆周围的环境。我们的模型称为U-BEV，受到计算机视觉分割任务中广泛使用的U-Net [36]架构的启发。概述如图4所示。

给定一组6张图像及其内在和外在校准，我们预测一个BEV 𝐵∈𝑅𝑆×𝑆×𝑁B∈RS×S×N，其中𝑆S是BEV的像素大小，𝑁N是地图中可用标签的数量。我们使用后轮轴的中心作为原点，遵循nuScenes数据集中的惯例[37]。

3.1 特征提取

我们从所有6张图像中以不同分辨率提取特征，使用轻量级预训练的EfficientNet [38]骨干网络，这是较小模型中常见的方法[10]，[11]。具体来说，我们以步幅×2、×4、×8、×16提取特征，并出于计算原因舍弃最后一个步幅。提取的特征在整个架构中用作跳跃连接（图4中的蓝色框）。

图4：U-BEV模型的架构。 (a) 预训练的骨干网络（蓝色部分）从车辆周围的6个摄像头中提取特征。第一个解码器（橙色部分）预测每个输入图像上每个像素的高度。这个高度用于将每个摄像头投影到单个BEV（绿色部分）的3D空间中。更深层的特征被投影到分辨率较低的BEV中，然后以编码器-解码器的方式进行跳跃连接（黄色部分）进行上采样。 (b) 说明了从环视图像和高度到不同BEV层的投影操作。

点击经典文献阅读之--U-BEV(基于高度感知的鸟瞰图分割和神经地图的重定位)------古月居可查看全文