CAMAv2: A Vision-Centric Approach for Static Map Element Annotation

CAMAv2:

  • 摘要
  • 简介
  • 相关工作
    • [A. 视觉为中心的地图构建(Vision-centric HD Map Construction)](#A. 视觉为中心的地图构建(Vision-centric HD Map Construction))
    • [B. 地图元素数据集(Map Element Datasets)](#B. 地图元素数据集(Map Element Datasets))
      • [1. nuScenes 数据集](#1. nuScenes 数据集)
      • [2. Argoverse2 数据集](#2. Argoverse2 数据集)
      • [3. 车道线数据集](#3. 车道线数据集)
  • CAMAv2
    • [A. 场景重建(Scene Reconstruction)](#A. 场景重建(Scene Reconstruction))
      • Wheel-IMU-GNSS-Odometry (WIGO)
      • [里程计引导的三位重建(Odometry Guided SfM Reconstruction)](#里程计引导的三位重建(Odometry Guided SfM Reconstruction))
        • [单应性引导的空间匹配(Homography-guided Spatial Pairs)](#单应性引导的空间匹配(Homography-guided Spatial Pairs))
        • [基于深度学习的特征匹配搜索(Deep Learning Based Correspondence Search)](#基于深度学习的特征匹配搜索(Deep Learning Based Correspondence Search))
        • [基于里程计引导的初始化(Odometry Guided Initialization)](#基于里程计引导的初始化(Odometry Guided Initialization))
        • [并行重建(Parallel Reconstruction)](#并行重建(Parallel Reconstruction))
        • [迭代束束调整(Iterative BA)](#迭代束束调整(Iterative BA))
        • [刚性先验(Rigid Prior)](#刚性先验(Rigid Prior))
      • [道路表面重建(Road Surface Reconstruction)](#道路表面重建(Road Surface Reconstruction))
    • [B. 地图标注(Map Annotation)](#B. 地图标注(Map Annotation))
  • 参考文献

摘要

近年来,在线静态地图元素(即高精地图)构建算法的快速发展,极大地增加了对带有高质量真实标注数据的需求。然而,目前可用的公共数据集在一致性和准确性方面仍无法提供足够高质量的训练数据。例如,手动标注(效率较低)的 nuScenes 数据集中,高精地图与图像之间仍存在未对齐和不一致的问题(例如,平均约 8.03 像素的重投影误差)。为了解决这一问题,我们提出了 CAMAv2,这是一种以视觉为核心的静态地图元素一致且准确标注的解决方案。即使不依赖 LiDAR 数据输入,我们的方法仍然能够生成高质量的 3D 静态地图元素标注。具体来说,该标注在所有周围摄像头的视角下均可实现高重投影精度,并在整个序列中保持时空一致性。与原始 nuScenes 静态地图元素相比,CAMAv2 的标注实现了更低的重投影误差(例如 4.96 像素对比 8.03 像素)。使用 CAMAv2 标注数据训练的模型同样获得了更低的重投影误差(例如 5.62 像素对比 8.43 像素)。

简介

越来越多的智能汽车配备像Cameras和LiDAR这样的传感器来实时检测周围的环境,然而,这些传感器的感知范围有限,并且容易受到恶劣天气的影响。预构建的数字地图是一种有效的方法,能够克服这些限制,提高感知能力和鲁棒性。高精地图(HD maps) 提供了物理环境的详细且精确的表示,包括车道级别的实例和语义信息,这对于智能车辆导航至关重要。以往HDmap采用SLAM进行地图构建,但是也需要一个复杂且冗长的Pipline,并且还需要大量的人工标注。随着深度学习技术的发展,智能驾驶感知算法的技术架构正在迅速从传统的基于规则的方法向数据驱动方法转变。在线高精地图构建正逐渐成为基于 LiDAR 和以视觉为中心的鸟瞰视图(BEV)感知的主流方法。这些方法重点分析 BEV 和 3D 空间中的矢量化静态地图元素实例,最终通过训练神经网络直接从周围摄像头图像生成矢量化地图。

现有的在线高清地图构建算法通常需要高质量且多样化的带标注训练数据。相应地,公共数据集中提供 3D 空间标注的部分大致可分为两类:**基于高清地图(HD map-based)**和基于深度重投影(depth reprojection-based)。例如,nuScenes 数据集提供了人工标注的高清地图以及自车的位姿信息。HDMapNet 是最早使用 nuScenes 提供的矢量化地图作为真实值,并在 BEV 空间直接预测静态地图元素的神经网络之一。OpenLane 则是首个通过深度重投影方法生成 3D 车道标注的真实世界 3D 车道数据集。具体来说,其 3D 车道点云是通过结合 2D 车道检测和 3D LiDAR 点云生成的。

尽管如此,现有标注方法仍存在一些显著的局限性。特别是,3D 道路元素标注需要准确反映现实世界的环境。为此,我们亟需从一致性和几何精度两个关键方面分析现有标注数据。一致性指 3D 标注与 2D 图像之间的对应关系,而几何精度则反映 3D 标注投影到图像时的匹配精度。如下所示:

图 1 (a, b) 显示了在车辆与自行车道之间绘制的车道分隔线,而图像中却未显示相应的车道线;图 1 © 中显示了投影到图像平面的车道分隔线(白色和黄色线)偏离了图像中的实际车道分隔线。其主要原因在于,nuScenes 数据集提供的 2D 高清地图缺乏高程信息,且车辆自运动与全球地图对齐时存在误差。这些局限性影响了 3D 标注与实际 2D 图像的一致性和几何精度。

鉴于上述挑战,我们提出了 CAMAv2:一种以视觉为核心的一致且准确地图标注(Consistent and Accurate Map Annotation)方法。CAMAv2 的突出特点主要体现在以下三个方面:

  1. 我们提出了一个完整的 3D 重建管道,主要通过周围摄像头图像获取精确的摄像头运动信息和稀疏点云。这种方法即使在未配备 LiDAR 的低成本智能驾驶平台上也可以应用。
  2. 引入了一种道路表面网格重建算法,用于重建高精度的道路表面。该算法能够生成具有语义和光度信息的高密度 3D 道路表面。
  3. 应用了自动地图标注工具,从重建的道路表面中提取矢量化车道表示。

本研究的早期版本已在文献 1 中发表。本次期刊扩展版的主要改进包括:

  • 提出了面向大规模智能驾驶场景的并行重建方法,即首先对多个驾驶片段分别进行重建,然后将其拼接在一起,从而减少了基于 SfM 重建的运行时间(效率提高了 5 倍)。
  • 改进了 nuScenes 数据集上重建结果的质量,提出了一种多场景聚合重建方法,解决了以往单场景重建方法中丢失首尾帧、以及遮挡和盲区问题。这一改进最终显著提升了标注的准确性和一致性,并大幅加快了标注过程。

相关工作

在过去几年中,以视觉为核心的鸟瞰视图(BEV)感知逐渐成为智能驾驶领域的 3D 视觉范式。特别是,基于深度学习的地图构建方法在高清地图(HD Map)构建中已成为一个重要的研究方向。有效的视图转换对于提高算法性能和环境感知能力至关重要。

数据驱动的 BEV 感知算法依赖于高精度且多样化的 3D 道路表面元素标注。据我们所知,目前公开的道路表面元素数据集中,静态道路元素的数据大致可以分为两类:基于高清地图的方法【9】【16】【17】和基于深度重投影的方法【11】【18】【19】。

A. 视觉为中心的地图构建(Vision-centric HD Map Construction)

HDMapNet 10 首创了一种在线高清地图构建方法,通过训练神经网络在 BEV 空间中进行像素级分割。这种方法需要复杂且耗时的后处理步骤,才能生成道路元素的矢量化表示。随后,VectorMapNet 20 探索了高清地图预测的端到端框架,通过两阶段方法对地图元素建模并预测矢量化地图。MapTR 15, 21 则通过改进地图元素解码器和损失函数建模,进一步提升了效率和性能。为推进端到端道路结构理解,LaneGAP 22 和 TopoNet 19 直接回归道路拓扑结构。目前端到端地图网络的主要趋势是改进 2D-to-BEV 转换模块和矢量化地图元素建模方法,以实现更高效的性能。视角转换(从透视视图到 BEV 的转换)通常通过显式几何投影模型【23】--【25】或通过神经网络学习隐式表示【26】--【28】来完成。

数据驱动的感知算法显著推动了智能驾驶应用的发展,具有以下优势:

  • 端到端学习:模型直接从输入中学习,省去了复杂的中间处理步骤,并通过时序融合处理遮挡和极端光照条件。
  • 闭环优化:利用数据驱动的闭环机制,模型可以自我优化,减少调试特殊情况的工程工作量。
  • 更强的泛化能力:在多样化数据集上训练的模型在不同驾驶环境和复杂视觉条件下表现更好。

B. 地图元素数据集(Map Element Datasets)

1. nuScenes 数据集

nuScenes 数据集 9 提供了四个人工标注的城市级地图,是众多在线高清地图构建方法的基础。所有方法均使用 nuScenes 提供的三种静态地图元素(车道边界、车道分隔线和人行横道)进行训练。然而,nuScenes 将几何重建的地图投影到地面平面,并在 2D 空间中标注,因此缺乏高程信息。此外,地图与图像的重投影精度无法保证。例如,图 1 展示了图像与投影道路边缘的不对齐现象。此外,由于同步和标定误差,摄像头与地图之间的姿态未能很好地对齐,导致 nuScenes 高清地图的标注一致性和精度无法得到保障。

2. Argoverse2 数据集

Argoverse2 数据集是另一个用于高清地图构建的主流大规模数据集。与 nuScenes 不同,Argoverse2 提供了具有高分辨率地面高程的 3D 高清地图表示,同时还包括一个反映真实世界高清地图变化的地图变更数据集。每个场景包含其局部地图区域,逐场景地图的优势包括:

更高效的查询能力; 处理地图变化的能力。由于其丰富的高清地图信息,越来越多的在线地图构建方法在 Argoverse2 数据集上进行了评估。

3. 车道线数据集

车道是重要的地图元素,3D 车道检测已成为一个专门的感知任务。在没有高清地图的情况下,一些数据集通过 LiDAR 点云进行 3D 车道标注,例如 OpenLane 11 和 Once-3DLanes 18。其方法如下:

  • 建立 3D 和 2D 的对应关系:将 LiDAR 点投影到图像平面,获得像素的稀疏深度信息。
  • 结合分割和深度信息:将 2D 车道分割结果与稀疏深度信息结合,回投影到 3D 空间生成车道点云。
  • 过滤异常点:通过过滤算法去除离群点,生成 3D 标注结果。

这种方法在几何上保证了 3D 标注与 2D 图像的精度,但存在以下局限:

  • 无法在 3D 空间中实现时空一致性。
  • 由于多帧拼接累积的定位误差和同步问题,LiDAR 点云可能会变得噪声较大,导致反投影的 3D 车道与真实车道不一致。

与上述方法不同,我们提出的 CAMAv2 使用围绕视图的图像(以视觉为中心)重建场景中的静态地图元素。无需 LiDAR 和预定义的高清地图,我们的方法能够:

  • 消除同步和校准误差。
  • 在 3D 空间中强制实现时空一致性。
  • 提出并使用了一种并行重建和空间聚合方法,加速大规模智能驾驶场景下的重建时间。

CAMAv2

图 2 展示了我们提出的 CAMAv2 方法的整体框架。CAMAv2 是一种以视觉为中心的方法:输入包括一组环视图像以及通过辅助传感器(如车轮、GNSS 和 IMU)获得的粗略自车位姿。整个框架主要由两个部分组成:场景重建和道路元素矢量标注。 场景重建这一部分完全自动化。我们提出了一种改进的**基于运动结构(SfM, Structure-from-Motion)**方法,用于生成高精度的稀疏点云和自车位姿,以初始化道路表面。接下来,通过网格表示方法 (RoMe, Road Surface Reconstruction via Mesh Representations)重建道路表面。道路元素矢量标注基于人机协作的标注流程完成。具体来说:

  • 首先使用离线地图自动标注模型【13】进行初步标注。
  • 随后由人工验证并修改结果以确保准确性。

由于 CAMAv2 基于图像序列的重建方法,能够保证所有 3D 元素及其与 2D 图像的对应关系。因此,即使不使用 LiDAR,也能确保 3D-2D 的对应性和重投影精度(甚至进一步提升)。这种方法显著增强了地图元素标注的质量和效率,适用于低成本的智能驾驶平台和大规模地图构建场景。

A. 场景重建(Scene Reconstruction)

场景重建包括三个部分: wheel-IMU-GNSS-odometry (WIGO), odometry-guided SfM recon-

struction, and road surface reconstruction.

Wheel-IMU-GNSS-Odometry (WIGO)

为了实现局部精确且全局无漂移的位姿估计,通常需要融合多种具有互补特性的传感器。采用后端紧耦合的方法,对局部传感器(Wheel,IMU)和全局传感器(GNSS)进行位姿图优化,如下所示:

通过位姿图优化,本地估计与全局坐标对齐,使得本地感知结果与全局坐标系保持一致,累积的漂移被有效地校正和消除。WIGO 算法能够提供具有真实世界尺度的粗略全局 6-DoF (自由度) 位姿估计,这些结果被用作后续 SfM (Structure-from-Motion) Pipline的输入,为进一步的高精度场景重建提供支持。

里程计引导的三位重建(Odometry Guided SfM Reconstruction)

我们基于COLMAP引入了优化的结构光运动SfM,以提升3D场景重建的效率和准确性,专门针对智能驾驶的需求。主要优化包含以下几个方面:

单应性引导的空间匹配(Homography-guided Spatial Pairs)

为实现完整的3D场景重建,需要更多具有精确位置的空间点,因此必须采用某些策略获取密集的匹配点。在无序图像数据的情况下,通常使用穷举匹配,但其计算成本随着图像数量的增加呈指数增长。对于车载摄像头捕获的序列图像,序列匹配可以缓解这一问题,但会引入多个驾驶片段间缺乏匹配的问题。为此,我们提出了单应性引导的空间匹配(HSP),用于在多个驾驶片段之间进行交叉匹配。HSP在匹配的召回率和效率之间取得了平衡。具体来说,借助WIGO的位姿数据,我们可以将每个摄像头的全局位姿作为先验条件,位姿定义为:
S = { s 0 , s 1 , ⋯   , s n } s i = { x i t , y i t , z i t , x i q , y i q , z i q , w i q } S = \left \{ s_{0},s_{1},\cdots,s_{n} \right \} \\ s_{i} = \left \{ x_{i}^{t},y_{i}^{t},z_{i}^{t},x_{i}^{q},y_{i}^{q},z_{i}^{q},w_{i}^{q} \right \} S={s0,s1,⋯,sn}si={xit,yit,zit,xiq,yiq,ziq,wiq}

使用KNN(k-nearest neighbours)算法去寻找每个相机的最近邻,对于每个位姿 s i t s_{i}^{t} sit及其邻居 s j t s_{j}^{t} sjt , 如果它们在z轴方向上的距离不大于阈值 △ z t \bigtriangleup z^{t} △zt, 则将其添加为空间匹配对:
∣ z i t − z j t ∣ < △ z t \left | z_{i}^{t}-z_{j}^{t} \right | < \bigtriangleup z^{t} zit−zjt <△zt

接下来,我们通过计算不同摄像头之间的视觉锥重叠来筛选潜在的匹配图像对。如下图所示,通过摄像头的方向信息,我们可以获取两个摄像头的光轴中心向量 A → \overrightarrow{A} A 和 B → \overrightarrow{B} B ,计算光轴向量余弦相似度如下所示:
cos ⁡ θ 1 = A → ⋅ B → ∥ A → ∥ ⋅ ∥ B → ∥ \cos \theta_{1}= \frac{ \overrightarrow{A} \cdot \overrightarrow{B} }{\left \| \overrightarrow{A} \right \| \cdot \left \| \overrightarrow{B} \right \|} cosθ1= A ⋅ B A ⋅B
cos ⁡ θ 2 = A B → ⋅ A → ∥ A B → ∥ ⋅ ∥ A → ∥ \cos \theta_{2}= \frac{ \overrightarrow{AB} \cdot \overrightarrow{A} }{\left \| \overrightarrow{AB} \right \| \cdot \left \| \overrightarrow{A} \right \|} cosθ2= AB ⋅ A AB ⋅A

如果 θ 1 > π 2 \theta _{1}>\frac{\pi }{2} θ1>2π或 θ 2 > π 2 \theta _{2}>\frac{\pi }{2} θ2>2π,这意味着两个摄像头的视觉锥之间没有重叠,因此将该空间匹配对过滤掉。此外,对于那些光轴方向彼此相对且距离很近的摄像头匹配对,我们也会进行过滤。这类情况下,由于摄像头过于接近以及不合理的视角,图像匹配可能会产生误导性结果。进一步考虑到智能驾驶应用中,所有摄像头的外参与地面平面具有大致一致性。通过对地平面应用单应性变换(homography transformation),可以进一步过滤掉摄像头之间的视觉重叠,以强调道路表面区域的重要性。

基于深度学习的特征匹配搜索(Deep Learning Based Correspondence Search)

为了提高在低光照和极端天气条件下的鲁棒性,我们在驾驶数据集上训练了一种特征点提取网络 SuperPoint ,并特别关注弱纹理或无纹理的道路表面。此外,对于视角和光照条件差异显著的图像,匹配任务面临很大挑战。为了解决这一问题,我们采用 SuperGlue 进行局部特征匹配,以提高复杂场景下匹配的鲁棒性和准确性。

基于里程计引导的初始化(Odometry Guided Initialization)

初始化是结构光复原(SfM)中的关键步骤,直接影响到重建的鲁棒性、精度和性能。传统的增量式 SfM 需要计算场景图以确保重建过程的鲁棒性,从中找到最佳初始化。然而,在大规模重建场景中(例如,300m×300m 的区域和成千上万张图像),这种初始化可能面临巨大的计算负担。在实际驾驶场景中,通过融合多个传感器(如 GNSS、IMU 和车轮编码器)并应用定位算法,可以获取自车位姿信息,进而确定每个摄像头的位置和方向。受此启发,我们提出了一种 里程计引导初始化(Odometry-Guided Initialization, OGI) 方法用于 SfM。在重建过程的开始阶段,WIGO 位姿通过外参被转换为摄像头坐标系下的位姿。利用这些初始位姿,可以用空间引导的 SfM代替增量式 SfM,从而显著加快重建过程,并确保摄像头位姿的真实尺度初始化。

并行重建(Parallel Reconstruction)

直接重建一个大规模场景中的所有图像并不可取。其主要原因不仅会超过单台计算机的内存容量,而且会使得无法充分利用并行计算能力。大规模重建区域通常由多个驾驶片段组成。因此,我们采取逐个重建每个驾驶片段的策略,每个片段通常包含数百张图像;然后,根据 HSP(同视锥重叠)合并具有足够视觉重叠的片段,最终获得完整的大规模重建。在实际操作中,我们并行重建每个片段,进行 OGI(里程计引导初始化),然后进行三角化和 集束调整(BA)。在合并后的模型上进行重三角化和全局BA,以过滤掉异常点并提高重建结果。

迭代束束调整(Iterative BA)

在三角化之后,第一次的束束调整(BA)会受到异常点的严重影响,第二次BA步骤能显著改善结果。因此,我们提出了一种迭代BA策略,使用预BA结果进行重三角化,随后对后BA结果进行优化。通过逐步去除不准确的点,优化过程的准确性和鲁棒性可以显著提升。我们在 算法1 中提供了我们的迭代BA的概述。在大多数情况下,结果的显著提高出现在第三次迭代后。这是优化收敛的标志,也是过程中的关键点。

刚性先验(Rigid Prior)

对于智能驾驶应用,安装在车辆上的多个摄像头可以视为固定在刚体上。这意味着它们之间的位置和方向是相对固定的,因此我们不需要将每个摄像头的位置和方向作为独立变量进行优化。在常规的BA过程中,我们需要优化所有摄像头的参数 P P P和点参数 X X X,其描述如下公式:
min ⁡ P i , X j ∑ i = 1 N ∑ j ∈ O ( i ) ∥ u i j − π ( P i , X j ) ∥ 2 \min_{P_{i},X_{j}} \sum_{i=1}^{N} \sum_{j\in O(i) }^{} \left \| u_{ij}-\pi (P_{i},X_{j}) \right \| ^{2} Pi,Xjmini=1∑Nj∈O(i)∑∥uij−π(Pi,Xj)∥2

由于摄像头之间的位置和方向是固定的,我们提议使用刚性集束调整(rigid bundle adjustment, RBA),而不是普通的集束调整。在这种情况下,我们优化一个全局刚性变换来调整所有摄像头的姿态。我们可以通过以下公式重写该方程:
min ⁡ T , X j ∑ i = 1 N ∑ j ∈ O ( i ) ∥ u i j − π ( T P r e f R i , X j ) ∥ 2 \min_{T,X_{j}} \sum_{i=1}^{N} \sum_{j\in O(i) }^{} \left \| u_{ij}-\pi (TP_{ref}R_{i},X_{j}) \right \| ^{2} T,Xjmini=1∑Nj∈O(i)∑∥uij−π(TPrefRi,Xj)∥2

其中, T T T 是全局刚性变换矩阵,描述了整个刚性体的位置和旋转, P r e f P_{ref} Pref是参考摄像头的姿态参数, R i R_{i} Ri是摄像头
i i i相对于参考摄像头的固定相对变换矩阵。摄像头之间存在较大相对位置变化时,视为估计不准确的摄像头,并在刚性集束调整后进行过滤。应用刚性集束调整不仅使多摄像头系统的处理更为高效,而且提高了重建结果的准确性。

通过上述优化,我们实现了约五倍的效率提升和20%的鲁棒性(成功率)改进,适用于智能驾驶数据集。通过SfM模型生成的精确6自由度(6-DoF)姿态和相应的稀疏3D点将作为输入,供RoMe用于重建道路表面网格。

道路表面重建(Road Surface Reconstruction)

我们对之前的工作RoMe进行了扩展,主要分为以下三个部分:

  • 表面点初始化:为了减少运动物体和停放车辆对道路表面重建的影响,我们采用现成的2D分割网络来移除遮挡物体并获取车道分割掩码。结合稀疏的SfM模型,可以恢复语义稀疏点云。接着,提取稀疏的道路表面点云。为了在SfM点过于稀疏时进一步提高鲁棒性,我们基于自我姿态初始化一个窄的道路表面,并对周围的SfM点进行采样。最终,获得更大范围的道路表面点。这种方法提高了道路表面初始化的整体质量。
  • 高度估计:使用前一步得到的稀疏道路表面,我们训练了一个多层感知器(MLP)48来进行密集的道路高度预测。与RGB和语义信息不同,道路高度变化不会剧烈变化,我们使用位置编码来控制道路表面的平滑性。
  • 网格优化:基于预测的密集道路高度初始化网格。原始图像及其对应的2D分割结果用于训练,为网格中的每个三角面分配语义标签和光度特征。

在实际操作中,高度MLP在网格优化阶段进行优化和精炼,以提高几何特征与光度特征之间的一致性。最终,能够获得高精度的3D道路表面网格。值得注意的是,为了方便标注,3D道路表面网格可以表示为2D BEV图像和高度图,如下图所示:

B. 地图标注(Map Annotation)

我们提出了一种基于人机协作的半自动化方法,用于加速耗时的高清地图注释。如下图所示,训练有素的标注员将手动标注所有数据并生成高清地图。一旦收集到足够的标注数据,就可以用监督学习训练一个神经网络来自动注释高清地图。在此过程中,我们保留模型的高置信度输出,对于低置信度的结果进行重新标注,然后将人工标注的结果反馈给模型,以便在下一次迭代中重新训练。特别地,我们将矢量化地图注释VMA(vectorized map annotation)系统扩展为可学习的注释模型。VMA是基于MapTR的自动离线地图注释框架。输入为2D BEV图像,输出为道路表面元素(例如车道分隔线、道路边界、人行道横穿线)的矢量化表示。我们提出使用连接的2D BEV语义光度图像作为输入,因为它们能够提升VMA的推理能力,特别是在分类车道分隔线类型时。需要注意的是,这个过程仍然是在2D BEV空间中进行的。在获得了矢量化的2D表示后,结合高度图将2D矢量提升为实际的3D矢量。在实际的注释过程中,随着注释数据的积累,VMA模型会不断优化。人工工作从初始注释转变为验证和精细修改。人机协作模式大大加快了注释效率。

参考文献

1 J. Zhang, S. Chen, H. Yin, R. Mei, X. Liu, C. Yang, Q. Zhang, and W. Sui, "A vision-centric approach for static map element annotation," in IEEE International Conference on Robotics and Automation. IEEE, 2024, pp. 1--7.
9 H. Caesar, V. Bankiti, A. H. Lang, S. Vora, V. E. Liong, Q. Xu, A. Krishnan, Y. Pan, G. Baldan, and O. Beijbom, "nuscenes: A multimodal dataset for autonomous driving," in IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 11 621--11 631.
16 M.-F. Chang, J. Lambert, P. Sangkloy, J. Singh, S. Bak, A. Hartnett, D. Wang, P. Carr, S. Lucey, D. Ramanan et al., "Argoverse: 3d tracking and forecasting with rich maps," in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 8748--8757.
17 B. Wilson, W. Qi, T. Agarwal, J. Lambert, J. Singh, S. Khandelwal, B. Pan, R. Kumar, A. Hartnett, J. K. Pontes et al., "Argoverse 2:

Next generation datasets for self-driving perception and forecasting," in Neural Information Processing Systems Track on Datasets and

Benchmarks, 2023.
11 L. Chen, C. Sima, Y. Li, Z. Zheng, J. Xu, X. Geng, H. Li, C. He, J. Shi, Y. Qiao et al., "Persformer: 3d lane detection via perspective

transformer and the openlane benchmark," in European Conference on Computer Vision. Springer, 2022, pp. 550--567.
19 T. Li, L. Chen, H. Wang, Y. Li, J. Yang, X. Geng, S. Jiang, Y. Wang, H. Xu, C. Xu, J. Yan, P. Luo, and H. Li, "Graph-based topology

reasoning for driving scenes," arXiv preprint arXiv:2304.05277, 2023.
20 Y. Liu, T. Yuan, Y. Wang, Y. Wang, and H. Zhao, "Vectormapnet: End-to-end vectorized hd map learning," in International Conference on Machine Learning. PMLR, 2023, pp. 22 352--22 369.
10 Q. Li, Y. Wang, Y. Wang, and H. Zhao, "Hdmapnet: An online hd map construction and evaluation framework," in IEEE International Conference on Robotics and Automation. IEEE, 2022, pp. 4628--4634.
20 Y. Liu, T. Yuan, Y. Wang, Y. Wang, and H. Zhao, "Vectormapnet: End-to-end vectorized hd map learning," in International Conference on Machine Learning. PMLR, 2023, pp. 22 352--22 369.
15 B. Liao, S. Chen, Y. Zhang, B. Jiang, Q. Zhang, W. Liu, C. Huang, and X. Wang, "Maptrv2: An end-to-end framework for online vectorized hd map construction," arXiv preprint arXiv:2308.05736, 2023.
21 B. Liao, S. Chen, X. Wang, T. Cheng, Q. Zhang, W. Liu, and C. Huang, "Maptr: Structured modeling and learning for online vectorized hd map construction," in International Conference on Learning Representations, 2022.
22 B. Liao, S. Chen, B. Jiang, T. Cheng, Q. Zhang, W. Liu, C. Huang, and X. Wang, "Lane graph as path: Continuity-preserving path-

wise modeling for online lane graph construction," arXiv preprint arXiv:2303.08815, 2023.
19 T. Li, L. Chen, H. Wang, Y. Li, J. Yang, X. Geng, S. Jiang, Y. Wang, H. Xu, C. Xu, J. Yan, P. Luo, and H. Li, "Graph-based topology reasoning for driving scenes," arXiv preprint arXiv:2304.05277, 2023
23 N. Garnett, R. Cohen, T. Pe'er, R. Lahav, and D. Levi, "3d-lanenet: end-to-end 3d multiple lane detection," in IEEE International Conference on Computer Vision, 2019, pp. 2921--2930.
24 J. Philion and S. Fidler, "Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d," in European

Conference on Computer Vision. Springer, 2020, pp. 194--210.
25 L. Reiher, B. Lampe, and L. Eckstein, "A sim2real deep learning approach for the transformation of images from multiple vehicle-mounted cameras to a semantically segmented image in bird's eye view," in IEEE International Conference on Intelligent Transportation Systems. IEEE, 2020, pp. 1--7.
26 Z. Li, W. Wang, H. Li, E. Xie, C. Sima, T. Lu, Y. Qiao, and J. Dai, "Bevformer: Learning bird's-eye-view representation from multi-camera images via spatiotemporal transformers," in European Conference on Computer Vision. Springer, 2022, pp. 1--18.
27 Y. Liu, T. Wang, X. Zhang, and J. Sun, "Petr: Position embedding transformation for multi-view 3d object detection," in European Conference on Computer Vision. Springer, 2022, pp. 531--548.
28 S. Chen, T. Cheng, X. Wang, W. Meng, Q. Zhang, and W. Liu, "Efficient and robust 2d-to-bev representation learning via geometry-guided kernel transformer," arXiv preprint arXiv:2206.04584, 2022.
11 L. Chen, C. Sima, Y. Li, Z. Zheng, J. Xu, X. Geng, H. Li, C. He, J. Shi, Y. Qiao et al., "Persformer: 3d lane detection via perspective

transformer and the openlane benchmark," in European Conference on Computer Vision. Springer, 2022, pp. 550--567.
18 F. Yan, M. Nie, X. Cai, J. Han, H. Xu, Z. Yang, C. Ye, Y. Fu, M. B. Mi, and L. Zhang, "Once-3dlanes: Building monocular 3d lane detection," in IEEE Conference on Computer Vision and Pattern Recognition, 2022, pp. 17 143--17 152.
13 S. Chen, Y. Zhang, B. Liao, J. Xie, T. Cheng, W. Sui, Q. Zhang, C. Huang, W. Liu, and X. Wang, "Vma: Divide-and-conquer vectorized map annotation system for large-scale driving scene," arXiv preprint arXiv:2304.09807, 2023.

相关推荐
Dillon Dong3 小时前
【风电控制】TI TMS320F28379D 双CPU架构解析与任务分布设计
嵌入式硬件·算法·变流器·风电控制
小羊在睡觉8 小时前
力扣84. 柱状图中最大的矩形
后端·算法·leetcode·golang·go
3DVisionary9 小时前
蓝光三维扫描:医疗制造的精度焦虑怎么解
人工智能·算法·制造·蓝光三维扫描·医疗制造·三维检测·义齿检测
好评笔记9 小时前
机器学习面试八股——常用损失函数
人工智能·深度学习·算法·机器学习·校招
weixin_468466859 小时前
全局与局部注意力机制新手实战指南
人工智能·python·深度学习·算法·自然语言处理·transformer·注意力机制
_日拱一卒9 小时前
LeetCode:994腐烂的橘子
java·数据结构·算法·leetcode·深度优先
珂朵莉MM10 小时前
第七届全球校园人工智能算法精英大赛-算法巅峰赛产业命题赛第3赛季优化题--束搜索
人工智能·算法
Omics Pro10 小时前
首个!外源天然产物综合性代谢图谱
数据库·人工智能·算法·机器学习·r语言
voidmort11 小时前
3. 微调(Fine-tuning)与强化学习(RL)的核心思想
python·深度学习·算法
人道领域11 小时前
【LeetCode刷题日记】669.修剪二叉搜索树
开发语言·python·算法