0. 简介
高效的重定位对于GPS信号不佳或基于传感器的定位失败的智能车辆至关重要。最近,Bird's-Eye-View (BEV) 分割的进展使得能够准确地估计局部场景的外观,从而有利于车辆的重定位。然而,BEV方法的一个缺点是利用几何约束需要大量的计算 。本文《U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization》提出了U-BEV,一种受U-Net启发的架构,通过在拉平BEV特征之前对多个高度层进行推理,扩展了当前的最先进水平。我们证明了这种扩展可以提高U-BEV的性能高达4.11%的IoU。此外,我们将编码的神经BEV与可微分的模板匹配器相结合,在神经SD地图数据集上执行重定位。所提出的模型可以完全端到端地进行训练,并在nuScenes数据集上优于具有相似计算复杂度的基于Transformer的BEV方法1.7到2.8%的mIoU,以及基于BEV的重定位超过26%的召回率。
图1:U-BEV提出了一种新颖的BEV表示方法,通过环视图像实现在SD地图数据中高效的神经定位。
1. 主要贡献
在这项工作中,我们提出了一种新的方法来估计BEV(鸟瞰图),利用高度感知特征嵌入,使网络能够在深度维度上进行推理,而无需进行繁重的计算。基础架构受到了众所周知的U-Net结构的启发,并且由于整个模型中存在跳跃连接,可以保留细节。我们主张采用两步定位方法,自主代理首先在几米范围内全局估计其位置,然后依赖于局部方法获得应用所需的精度 。因此,我们利用轻量级的标准定义(SD)地图数据,并旨在实现一次性重定位精度在10米以下 。在这项工作中,我们将BEV表示与深度模板匹配器相结合,后者是端到端可训练的,用于实时重定位。定位架构可以通过将BEV方法和相应的地图数据编码为神经表示来处理任意BEV方法。这项工作将U-BEV与重定位模块相结合,优于nuScenes数据集上其他BEV方法和当代基于BEV的定位,其在10米处的召回准确度提高了26.4%。总之,本文提出了以下贡献:
- 一种新的轻量级U-BEV架构,其在几何上受到限制,并利用地面点的高度而不是它们相对于摄像机的深度。
- 一种端到端可训练的实时全局定位算法,用于神经BEV和神经编码的SD地图之间的定位。
- 在nuScenes数据集上改进了BEV(IoU提高了1.7到2.8)和定位性能(在10米处的召回准确度提高了26.4%)。
2. 方法
提议的完整算法在SD地图中定位一组环视图像 。它从环视图像生成局部BEV表示,并从SD地图瓦片中生成神经地图编码 ,给定来自车载传感器(例如嘈杂的GPS信号和指南针)的粗略3D位置先验。然后,深度模板匹配器将局部神经BEV滑动到全局神经地图上,生成相似度图。定位最终通过返回相似度图的Soft-Argmax完成。我们的方法概述如图2所示。
图2:U-BEV神经重定位模型概述。U-BEV从一组周围摄像头中预测局部BEV。预训练的编码器从中提取特征,生成神经BEV(左侧)。地图编码器根据位置先验𝜉𝑖𝑛𝑖𝑡(右侧)从裁剪的全局SD地图中提取特征,构建神经地图表示。深度模板匹配模块(QATM)计算最佳匹配位置(中间)。
3. 鸟瞰图重建
我们提出了一种新颖的轻量级且准确的BEV架构,用于从一组环视图像中重建车辆周围的环境。我们的模型称为U-BEV,受到计算机视觉分割任务中广泛使用的U-Net [36]架构的启发。概述如图4所示。
给定一组6张图像及其内在和外在校准,我们预测一个BEV 𝐵∈𝑅𝑆×𝑆×𝑁B∈RS×S×N,其中𝑆S是BEV的像素大小,𝑁N是地图中可用标签的数量。我们使用后轮轴的中心作为原点,遵循nuScenes数据集中的惯例[37]。
3.1 特征提取
我们从所有6张图像中以不同分辨率提取特征,使用轻量级预训练的EfficientNet [38]骨干网络,这是较小模型中常见的方法[10],[11]。具体来说,我们以步幅×2、×4、×8、×16提取特征,并出于计算原因舍弃最后一个步幅。提取的特征在整个架构中用作跳跃连接(图4中的蓝色框)。
图4:U-BEV模型的架构。 (a) 预训练的骨干网络(蓝色部分)从车辆周围的6个摄像头中提取特征。第一个解码器(橙色部分)预测每个输入图像上每个像素的高度。这个高度用于将每个摄像头投影到单个BEV(绿色部分)的3D空间中。更深层的特征被投影到分辨率较低的BEV中,然后以编码器-解码器的方式进行跳跃连接(黄色部分)进行上采样。 (b) 说明了从环视图像和高度到不同BEV层的投影操作。