经典文献阅读之--U-BEV(基于高度感知的鸟瞰图分割和神经地图的重定位)

0. 简介

高效的重定位对于GPS信号不佳或基于传感器的定位失败的智能车辆至关重要。最近,Bird's-Eye-View (BEV) 分割的进展使得能够准确地估计局部场景的外观,从而有利于车辆的重定位。然而,BEV方法的一个缺点是利用几何约束需要大量的计算 。本文《U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization》提出了U-BEV,一种受U-Net启发的架构,通过在拉平BEV特征之前对多个高度层进行推理,扩展了当前的最先进水平。我们证明了这种扩展可以提高U-BEV的性能高达4.11%的IoU。此外,我们将编码的神经BEV与可微分的模板匹配器相结合,在神经SD地图数据集上执行重定位。所提出的模型可以完全端到端地进行训练,并在nuScenes数据集上优于具有相似计算复杂度的基于Transformer的BEV方法1.7到2.8%的mIoU,以及基于BEV的重定位超过26%的召回率。

图1:U-BEV提出了一种新颖的BEV表示方法,通过环视图像实现在SD地图数据中高效的神经定位。

1. 主要贡献

在这项工作中,我们提出了一种新的方法来估计BEV(鸟瞰图),利用高度感知特征嵌入,使网络能够在深度维度上进行推理,而无需进行繁重的计算。基础架构受到了众所周知的U-Net结构的启发,并且由于整个模型中存在跳跃连接,可以保留细节。我们主张采用两步定位方法,自主代理首先在几米范围内全局估计其位置,然后依赖于局部方法获得应用所需的精度 。因此,我们利用轻量级的标准定义(SD)地图数据,并旨在实现一次性重定位精度在10米以下 。在这项工作中,我们将BEV表示与深度模板匹配器相结合,后者是端到端可训练的,用于实时重定位。定位架构可以通过将BEV方法和相应的地图数据编码为神经表示来处理任意BEV方法。这项工作将U-BEV与重定位模块相结合,优于nuScenes数据集上其他BEV方法和当代基于BEV的定位,其在10米处的召回准确度提高了26.4%。总之,本文提出了以下贡献:

  1. 一种新的轻量级U-BEV架构,其在几何上受到限制,并利用地面点的高度而不是它们相对于摄像机的深度。
  2. 一种端到端可训练的实时全局定位算法,用于神经BEV和神经编码的SD地图之间的定位。
  3. 在nuScenes数据集上改进了BEV(IoU提高了1.7到2.8)和定位性能(在10米处的召回准确度提高了26.4%)。

2. 方法

提议的完整算法在SD地图中定位一组环视图像 。它从环视图像生成局部BEV表示,并从SD地图瓦片中生成神经地图编码 ,给定来自车载传感器(例如嘈杂的GPS信号和指南针)的粗略3D位置先验。然后,深度模板匹配器将局部神经BEV滑动到全局神经地图上,生成相似度图。定位最终通过返回相似度图的Soft-Argmax完成。我们的方法概述如图2所示。

图2:U-BEV神经重定位模型概述。U-BEV从一组周围摄像头中预测局部BEV。预训练的编码器从中提取特征,生成神经BEV(左侧)。地图编码器根据位置先验𝜉𝑖𝑛𝑖𝑡(右侧)从裁剪的全局SD地图中提取特征,构建神经地图表示。深度模板匹配模块(QATM)计算最佳匹配位置(中间)。

3. 鸟瞰图重建

我们提出了一种新颖的轻量级且准确的BEV架构,用于从一组环视图像中重建车辆周围的环境。我们的模型称为U-BEV,受到计算机视觉分割任务中广泛使用的U-Net [36]架构的启发。概述如图4所示。

给定一组6张图像及其内在和外在校准,我们预测一个BEV 𝐵∈𝑅𝑆×𝑆×𝑁B∈RS×S×N,其中𝑆S是BEV的像素大小,𝑁N是地图中可用标签的数量。我们使用后轮轴的中心作为原点,遵循nuScenes数据集中的惯例[37]。

3.1 特征提取

我们从所有6张图像中以不同分辨率提取特征,使用轻量级预训练的EfficientNet [38]骨干网络,这是较小模型中常见的方法[10],[11]。具体来说,我们以步幅×2、×4、×8、×16提取特征,并出于计算原因舍弃最后一个步幅。提取的特征在整个架构中用作跳跃连接(图4中的蓝色框)。

图4:U-BEV模型的架构。 (a) 预训练的骨干网络(蓝色部分)从车辆周围的6个摄像头中提取特征。第一个解码器(橙色部分)预测每个输入图像上每个像素的高度。这个高度用于将每个摄像头投影到单个BEV(绿色部分)的3D空间中。更深层的特征被投影到分辨率较低的BEV中,然后以编码器-解码器的方式进行跳跃连接(黄色部分)进行上采样。 (b) 说明了从环视图像和高度到不同BEV层的投影操作。

点击经典文献阅读之--U-BEV(基于高度感知的鸟瞰图分割和神经地图的重定位)------古月居可查看全文

相关推荐
代码不行的搬运工2 小时前
神经网络12-Time-Series Transformer (TST)模型
人工智能·神经网络·transformer
秀儿还能再秀13 小时前
神经网络(系统性学习三):多层感知机(MLP)
神经网络·学习笔记·mlp·多层感知机
老艾的AI世界14 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
sp_fyf_202418 小时前
【大语言模型】ACL2024论文-19 SportsMetrics: 融合文本和数值数据以理解大型语言模型中的信息融合
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理
CoderIsArt18 小时前
基于 BP 神经网络整定的 PID 控制
人工智能·深度学习·神经网络
EterNity_TiMe_18 小时前
【论文复现】神经网络的公式推导与代码实现
人工智能·python·深度学习·神经网络·数据分析·特征分析
sp_fyf_202420 小时前
【大语言模型】ACL2024论文-18 MINPROMPT:基于图的最小提示数据增强用于少样本问答
人工智能·深度学习·神经网络·目标检测·机器学习·语言模型·自然语言处理
Mr.谢尔比21 小时前
李宏毅机器学习课程知识点摘要(1-5集)
人工智能·pytorch·深度学习·神经网络·算法·机器学习·计算机视觉
曼城周杰伦1 天前
自然语言处理:第六十二章 KAG 超越GraphRAG的图谱框架
人工智能·pytorch·神经网络·自然语言处理·chatgpt·nlp·gpt-3
南门听露1 天前
适用于资源受限IoT系统的非对称语义图像压缩技术
深度学习·神经网络·物联网