CAMAv2: A Vision-Centric Approach for Static Map Element Annotation

CAMAv2:

摘要
简介
相关工作
- [A. 视觉为中心的地图构建（Vision-centric HD Map Construction）](#A. 视觉为中心的地图构建（Vision-centric HD Map Construction）)
- [B. 地图元素数据集（Map Element Datasets）](#B. 地图元素数据集（Map Element Datasets）)
- - [1. nuScenes 数据集](#1. nuScenes 数据集)
  - [2. Argoverse2 数据集](#2. Argoverse2 数据集)
  - [3. 车道线数据集](#3. 车道线数据集)
CAMAv2
- [A. 场景重建（Scene Reconstruction）](#A. 场景重建（Scene Reconstruction）)
- - Wheel-IMU-GNSS-Odometry (WIGO)
  - [里程计引导的三位重建（Odometry Guided SfM Reconstruction）](#里程计引导的三位重建（Odometry Guided SfM Reconstruction）)
  - - [单应性引导的空间匹配（Homography-guided Spatial Pairs）](#单应性引导的空间匹配（Homography-guided Spatial Pairs）)
    - [基于深度学习的特征匹配搜索（Deep Learning Based Correspondence Search）](#基于深度学习的特征匹配搜索（Deep Learning Based Correspondence Search）)
    - [基于里程计引导的初始化（Odometry Guided Initialization）](#基于里程计引导的初始化（Odometry Guided Initialization）)
    - [并行重建（Parallel Reconstruction）](#并行重建（Parallel Reconstruction）)
    - [迭代束束调整（Iterative BA）](#迭代束束调整（Iterative BA）)
    - [刚性先验（Rigid Prior）](#刚性先验（Rigid Prior）)
  - [道路表面重建（Road Surface Reconstruction）](#道路表面重建（Road Surface Reconstruction）)
- [B. 地图标注（Map Annotation）](#B. 地图标注（Map Annotation）)
参考文献

摘要

近年来，在线静态地图元素（即高精地图）构建算法的快速发展，极大地增加了对带有高质量真实标注数据的需求。然而，目前可用的公共数据集在一致性和准确性方面仍无法提供足够高质量的训练数据。例如，手动标注（效率较低）的 nuScenes 数据集中，高精地图与图像之间仍存在未对齐和不一致的问题（例如，平均约 8.03 像素的重投影误差）。为了解决这一问题，我们提出了 CAMAv2，这是一种以视觉为核心的静态地图元素一致且准确标注的解决方案。即使不依赖 LiDAR 数据输入，我们的方法仍然能够生成高质量的 3D 静态地图元素标注。具体来说，该标注在所有周围摄像头的视角下均可实现高重投影精度，并在整个序列中保持时空一致性。与原始 nuScenes 静态地图元素相比，CAMAv2 的标注实现了更低的重投影误差（例如 4.96 像素对比 8.03 像素）。使用 CAMAv2 标注数据训练的模型同样获得了更低的重投影误差（例如 5.62 像素对比 8.43 像素）。

简介

越来越多的智能汽车配备像Cameras和LiDAR这样的传感器来实时检测周围的环境，然而，这些传感器的感知范围有限，并且容易受到恶劣天气的影响。预构建的数字地图是一种有效的方法，能够克服这些限制，提高感知能力和鲁棒性。高精地图（HD maps） 提供了物理环境的详细且精确的表示，包括车道级别的实例和语义信息，这对于智能车辆导航至关重要。以往HDmap采用SLAM进行地图构建，但是也需要一个复杂且冗长的Pipline，并且还需要大量的人工标注。随着深度学习技术的发展，智能驾驶感知算法的技术架构正在迅速从传统的基于规则的方法向数据驱动方法转变。在线高精地图构建正逐渐成为基于 LiDAR 和以视觉为中心的鸟瞰视图（BEV）感知的主流方法。这些方法重点分析 BEV 和 3D 空间中的矢量化静态地图元素实例，最终通过训练神经网络直接从周围摄像头图像生成矢量化地图。

现有的在线高清地图构建算法通常需要高质量且多样化的带标注训练数据。相应地，公共数据集中提供 3D 空间标注的部分大致可分为两类：**基于高清地图（HD map-based）**和基于深度重投影（depth reprojection-based）。例如，nuScenes 数据集提供了人工标注的高清地图以及自车的位姿信息。HDMapNet 是最早使用 nuScenes 提供的矢量化地图作为真实值，并在 BEV 空间直接预测静态地图元素的神经网络之一。OpenLane 则是首个通过深度重投影方法生成 3D 车道标注的真实世界 3D 车道数据集。具体来说，其 3D 车道点云是通过结合 2D 车道检测和 3D LiDAR 点云生成的。

尽管如此，现有标注方法仍存在一些显著的局限性。特别是，3D 道路元素标注需要准确反映现实世界的环境。为此，我们亟需从一致性和几何精度两个关键方面分析现有标注数据。一致性指 3D 标注与 2D 图像之间的对应关系，而几何精度则反映 3D 标注投影到图像时的匹配精度。如下所示：

图 1 (a, b) 显示了在车辆与自行车道之间绘制的车道分隔线，而图像中却未显示相应的车道线；图 1 © 中显示了投影到图像平面的车道分隔线（白色和黄色线）偏离了图像中的实际车道分隔线。其主要原因在于，nuScenes 数据集提供的 2D 高清地图缺乏高程信息，且车辆自运动与全球地图对齐时存在误差。这些局限性影响了 3D 标注与实际 2D 图像的一致性和几何精度。

鉴于上述挑战，我们提出了 CAMAv2：一种以视觉为核心的一致且准确地图标注（Consistent and Accurate Map Annotation）方法。CAMAv2 的突出特点主要体现在以下三个方面：

我们提出了一个完整的 3D 重建管道，主要通过周围摄像头图像获取精确的摄像头运动信息和稀疏点云。这种方法即使在未配备 LiDAR 的低成本智能驾驶平台上也可以应用。
引入了一种道路表面网格重建算法，用于重建高精度的道路表面。该算法能够生成具有语义和光度信息的高密度 3D 道路表面。
应用了自动地图标注工具，从重建的道路表面中提取矢量化车道表示。

本研究的早期版本已在文献 $1$ 中发表。本次期刊扩展版的主要改进包括：

提出了面向大规模智能驾驶场景的并行重建方法，即首先对多个驾驶片段分别进行重建，然后将其拼接在一起，从而减少了基于 SfM 重建的运行时间（效率提高了 5 倍）。
改进了 nuScenes 数据集上重建结果的质量，提出了一种多场景聚合重建方法，解决了以往单场景重建方法中丢失首尾帧、以及遮挡和盲区问题。这一改进最终显著提升了标注的准确性和一致性，并大幅加快了标注过程。

CAMAv2

图 2 展示了我们提出的 CAMAv2 方法的整体框架。CAMAv2 是一种以视觉为中心的方法：输入包括一组环视图像以及通过辅助传感器（如车轮、GNSS 和 IMU）获得的粗略自车位姿。整个框架主要由两个部分组成：场景重建和道路元素矢量标注。场景重建这一部分完全自动化。我们提出了一种改进的**基于运动结构（SfM, Structure-from-Motion）**方法，用于生成高精度的稀疏点云和自车位姿，以初始化道路表面。接下来，通过网格表示方法 (RoMe, Road Surface Reconstruction via Mesh Representations)重建道路表面。道路元素矢量标注基于人机协作的标注流程完成。具体来说：

首先使用离线地图自动标注模型【13】进行初步标注。
随后由人工验证并修改结果以确保准确性。

由于 CAMAv2 基于图像序列的重建方法，能够保证所有 3D 元素及其与 2D 图像的对应关系。因此，即使不使用 LiDAR，也能确保 3D-2D 的对应性和重投影精度（甚至进一步提升）。这种方法显著增强了地图元素标注的质量和效率，适用于低成本的智能驾驶平台和大规模地图构建场景。

A. 场景重建（Scene Reconstruction）

场景重建包括三个部分： wheel-IMU-GNSS-odometry (WIGO), odometry-guided SfM recon-

struction, and road surface reconstruction.

Wheel-IMU-GNSS-Odometry (WIGO)

为了实现局部精确且全局无漂移的位姿估计，通常需要融合多种具有互补特性的传感器。采用后端紧耦合的方法，对局部传感器（Wheel，IMU）和全局传感器（GNSS）进行位姿图优化，如下所示：

通过位姿图优化，本地估计与全局坐标对齐，使得本地感知结果与全局坐标系保持一致，累积的漂移被有效地校正和消除。WIGO 算法能够提供具有真实世界尺度的粗略全局 6-DoF (自由度) 位姿估计，这些结果被用作后续 SfM (Structure-from-Motion) Pipline的输入，为进一步的高精度场景重建提供支持。

里程计引导的三位重建（Odometry Guided SfM Reconstruction）

我们基于COLMAP引入了优化的结构光运动SfM，以提升3D场景重建的效率和准确性，专门针对智能驾驶的需求。主要优化包含以下几个方面：

单应性引导的空间匹配（Homography-guided Spatial Pairs）

为实现完整的3D场景重建，需要更多具有精确位置的空间点，因此必须采用某些策略获取密集的匹配点。在无序图像数据的情况下，通常使用穷举匹配，但其计算成本随着图像数量的增加呈指数增长。对于车载摄像头捕获的序列图像，序列匹配可以缓解这一问题，但会引入多个驾驶片段间缺乏匹配的问题。为此，我们提出了单应性引导的空间匹配（HSP），用于在多个驾驶片段之间进行交叉匹配。HSP在匹配的召回率和效率之间取得了平衡。具体来说，借助WIGO的位姿数据，我们可以将每个摄像头的全局位姿作为先验条件，位姿定义为：
S = { s 0 , s 1 , ⋯ , s n } s i = { x i t , y i t , z i t , x i q , y i q , z i q , w i q } S = \left \{ s_{0},s_{1},\cdots,s_{n} \right \} \\ s_{i} = \left \{ x_{i}^{t},y_{i}^{t},z_{i}^{t},x_{i}^{q},y_{i}^{q},z_{i}^{q},w_{i}^{q} \right \} S={s0,s1,⋯,sn}si={xit,yit,zit,xiq,yiq,ziq,wiq}

使用KNN（k-nearest neighbours）算法去寻找每个相机的最近邻，对于每个位姿 s i t s_{i}^{t} sit及其邻居 s j t s_{j}^{t} sjt , 如果它们在z轴方向上的距离不大于阈值 △ z t \bigtriangleup z^{t} △zt, 则将其添加为空间匹配对：
∣ z i t − z j t ∣ < △ z t \left | z_{i}^{t}-z_{j}^{t} \right | < \bigtriangleup z^{t} zit−zjt <△zt

接下来，我们通过计算不同摄像头之间的视觉锥重叠来筛选潜在的匹配图像对。如下图所示，通过摄像头的方向信息，我们可以获取两个摄像头的光轴中心向量 A → \overrightarrow{A} A 和 B → \overrightarrow{B} B ,计算光轴向量余弦相似度如下所示：
cos ⁡ θ 1 = A → ⋅ B → ∥ A → ∥ ⋅ ∥ B → ∥ \cos \theta_{1}= \frac{ \overrightarrow{A} \cdot \overrightarrow{B} }{\left \| \overrightarrow{A} \right \| \cdot \left \| \overrightarrow{B} \right \|} cosθ1= A ⋅ B A ⋅B
cos ⁡ θ 2 = A B → ⋅ A → ∥ A B → ∥ ⋅ ∥ A → ∥ \cos \theta_{2}= \frac{ \overrightarrow{AB} \cdot \overrightarrow{A} }{\left \| \overrightarrow{AB} \right \| \cdot \left \| \overrightarrow{A} \right \|} cosθ2= AB ⋅ A AB ⋅A

如果 θ 1 > π 2 \theta _{1}>\frac{\pi }{2} θ1>2π或 θ 2 > π 2 \theta _{2}>\frac{\pi }{2} θ2>2π,这意味着两个摄像头的视觉锥之间没有重叠，因此将该空间匹配对过滤掉。此外，对于那些光轴方向彼此相对且距离很近的摄像头匹配对，我们也会进行过滤。这类情况下，由于摄像头过于接近以及不合理的视角，图像匹配可能会产生误导性结果。进一步考虑到智能驾驶应用中，所有摄像头的外参与地面平面具有大致一致性。通过对地平面应用单应性变换（homography transformation），可以进一步过滤掉摄像头之间的视觉重叠，以强调道路表面区域的重要性。

基于深度学习的特征匹配搜索（Deep Learning Based Correspondence Search）

为了提高在低光照和极端天气条件下的鲁棒性，我们在驾驶数据集上训练了一种特征点提取网络 SuperPoint ，并特别关注弱纹理或无纹理的道路表面。此外，对于视角和光照条件差异显著的图像，匹配任务面临很大挑战。为了解决这一问题，我们采用 SuperGlue 进行局部特征匹配，以提高复杂场景下匹配的鲁棒性和准确性。

基于里程计引导的初始化（Odometry Guided Initialization）

初始化是结构光复原（SfM）中的关键步骤，直接影响到重建的鲁棒性、精度和性能。传统的增量式 SfM 需要计算场景图以确保重建过程的鲁棒性，从中找到最佳初始化。然而，在大规模重建场景中（例如，300m×300m 的区域和成千上万张图像），这种初始化可能面临巨大的计算负担。在实际驾驶场景中，通过融合多个传感器（如 GNSS、IMU 和车轮编码器）并应用定位算法，可以获取自车位姿信息，进而确定每个摄像头的位置和方向。受此启发，我们提出了一种里程计引导初始化（Odometry-Guided Initialization, OGI）方法用于 SfM。在重建过程的开始阶段，WIGO 位姿通过外参被转换为摄像头坐标系下的位姿。利用这些初始位姿，可以用空间引导的 SfM代替增量式 SfM，从而显著加快重建过程，并确保摄像头位姿的真实尺度初始化。

并行重建（Parallel Reconstruction）

直接重建一个大规模场景中的所有图像并不可取。其主要原因不仅会超过单台计算机的内存容量，而且会使得无法充分利用并行计算能力。大规模重建区域通常由多个驾驶片段组成。因此，我们采取逐个重建每个驾驶片段的策略，每个片段通常包含数百张图像；然后，根据 HSP（同视锥重叠）合并具有足够视觉重叠的片段，最终获得完整的大规模重建。在实际操作中，我们并行重建每个片段，进行 OGI（里程计引导初始化），然后进行三角化和集束调整（BA）。在合并后的模型上进行重三角化和全局BA，以过滤掉异常点并提高重建结果。

迭代束束调整（Iterative BA）

在三角化之后，第一次的束束调整（BA）会受到异常点的严重影响，第二次BA步骤能显著改善结果。因此，我们提出了一种迭代BA策略，使用预BA结果进行重三角化，随后对后BA结果进行优化。通过逐步去除不准确的点，优化过程的准确性和鲁棒性可以显著提升。我们在算法1 中提供了我们的迭代BA的概述。在大多数情况下，结果的显著提高出现在第三次迭代后。这是优化收敛的标志，也是过程中的关键点。

刚性先验（Rigid Prior）

对于智能驾驶应用，安装在车辆上的多个摄像头可以视为固定在刚体上。这意味着它们之间的位置和方向是相对固定的，因此我们不需要将每个摄像头的位置和方向作为独立变量进行优化。在常规的BA过程中，我们需要优化所有摄像头的参数 P P P和点参数 X X X，其描述如下公式：
min ⁡ P i , X j ∑ i = 1 N ∑ j ∈ O ( i ) ∥ u i j − π ( P i , X j ) ∥ 2 \min_{P_{i},X_{j}} \sum_{i=1}^{N} \sum_{j\in O(i) }^{} \left \| u_{ij}-\pi (P_{i},X_{j}) \right \| ^{2} Pi,Xjmini=1∑Nj∈O(i)∑∥uij−π(Pi,Xj)∥2

由于摄像头之间的位置和方向是固定的，我们提议使用刚性集束调整（rigid bundle adjustment, RBA），而不是普通的集束调整。在这种情况下，我们优化一个全局刚性变换来调整所有摄像头的姿态。我们可以通过以下公式重写该方程：
min ⁡ T , X j ∑ i = 1 N ∑ j ∈ O ( i ) ∥ u i j − π ( T P r e f R i , X j ) ∥ 2 \min_{T,X_{j}} \sum_{i=1}^{N} \sum_{j\in O(i) }^{} \left \| u_{ij}-\pi (TP_{ref}R_{i},X_{j}) \right \| ^{2} T,Xjmini=1∑Nj∈O(i)∑∥uij−π(TPrefRi,Xj)∥2

其中， T T T 是全局刚性变换矩阵，描述了整个刚性体的位置和旋转， P r e f P_{ref} Pref是参考摄像头的姿态参数， R i R_{i} Ri是摄像头
i i i相对于参考摄像头的固定相对变换矩阵。摄像头之间存在较大相对位置变化时，视为估计不准确的摄像头，并在刚性集束调整后进行过滤。应用刚性集束调整不仅使多摄像头系统的处理更为高效，而且提高了重建结果的准确性。

通过上述优化，我们实现了约五倍的效率提升和20%的鲁棒性（成功率）改进，适用于智能驾驶数据集。通过SfM模型生成的精确6自由度（6-DoF）姿态和相应的稀疏3D点将作为输入，供RoMe用于重建道路表面网格。

道路表面重建（Road Surface Reconstruction）

我们对之前的工作RoMe进行了扩展，主要分为以下三个部分：

表面点初始化：为了减少运动物体和停放车辆对道路表面重建的影响，我们采用现成的2D分割网络来移除遮挡物体并获取车道分割掩码。结合稀疏的SfM模型，可以恢复语义稀疏点云。接着，提取稀疏的道路表面点云。为了在SfM点过于稀疏时进一步提高鲁棒性，我们基于自我姿态初始化一个窄的道路表面，并对周围的SfM点进行采样。最终，获得更大范围的道路表面点。这种方法提高了道路表面初始化的整体质量。
高度估计：使用前一步得到的稀疏道路表面，我们训练了一个多层感知器（MLP） $48$ 来进行密集的道路高度预测。与RGB和语义信息不同，道路高度变化不会剧烈变化，我们使用位置编码来控制道路表面的平滑性。
网格优化：基于预测的密集道路高度初始化网格。原始图像及其对应的2D分割结果用于训练，为网格中的每个三角面分配语义标签和光度特征。

在实际操作中，高度MLP在网格优化阶段进行优化和精炼，以提高几何特征与光度特征之间的一致性。最终，能够获得高精度的3D道路表面网格。值得注意的是，为了方便标注，3D道路表面网格可以表示为2D BEV图像和高度图，如下图所示：

B. 地图标注（Map Annotation）

我们提出了一种基于人机协作的半自动化方法，用于加速耗时的高清地图注释。如下图所示，训练有素的标注员将手动标注所有数据并生成高清地图。一旦收集到足够的标注数据，就可以用监督学习训练一个神经网络来自动注释高清地图。在此过程中，我们保留模型的高置信度输出，对于低置信度的结果进行重新标注，然后将人工标注的结果反馈给模型，以便在下一次迭代中重新训练。特别地，我们将矢量化地图注释VMA（vectorized map annotation）系统扩展为可学习的注释模型。VMA是基于MapTR的自动离线地图注释框架。输入为2D BEV图像，输出为道路表面元素（例如车道分隔线、道路边界、人行道横穿线）的矢量化表示。我们提出使用连接的2D BEV语义光度图像作为输入，因为它们能够提升VMA的推理能力，特别是在分类车道分隔线类型时。需要注意的是，这个过程仍然是在2D BEV空间中进行的。在获得了矢量化的2D表示后，结合高度图将2D矢量提升为实际的3D矢量。在实际的注释过程中，随着注释数据的积累，VMA模型会不断优化。人工工作从初始注释转变为验证和精细修改。人机协作模式大大加快了注释效率。

参考文献

$1$ J. Zhang, S. Chen, H. Yin, R. Mei, X. Liu, C. Yang, Q. Zhang, and W. Sui, "A vision-centric approach for static map element annotation," in IEEE International Conference on Robotics and Automation. IEEE, 2024, pp. 1--7.
$9$ H. Caesar, V. Bankiti, A. H. Lang, S. Vora, V. E. Liong, Q. Xu, A. Krishnan, Y. Pan, G. Baldan, and O. Beijbom, "nuscenes: A multimodal dataset for autonomous driving," in IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 11 621--11 631.
$16$ M.-F. Chang, J. Lambert, P. Sangkloy, J. Singh, S. Bak, A. Hartnett, D. Wang, P. Carr, S. Lucey, D. Ramanan et al., "Argoverse: 3d tracking and forecasting with rich maps," in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 8748--8757.
$17$ B. Wilson, W. Qi, T. Agarwal, J. Lambert, J. Singh, S. Khandelwal, B. Pan, R. Kumar, A. Hartnett, J. K. Pontes et al., "Argoverse 2:

Next generation datasets for self-driving perception and forecasting," in Neural Information Processing Systems Track on Datasets and

Benchmarks, 2023.
$11$ L. Chen, C. Sima, Y. Li, Z. Zheng, J. Xu, X. Geng, H. Li, C. He, J. Shi, Y. Qiao et al., "Persformer: 3d lane detection via perspective

transformer and the openlane benchmark," in European Conference on Computer Vision. Springer, 2022, pp. 550--567.
$19$ T. Li, L. Chen, H. Wang, Y. Li, J. Yang, X. Geng, S. Jiang, Y. Wang, H. Xu, C. Xu, J. Yan, P. Luo, and H. Li, "Graph-based topology

reasoning for driving scenes," arXiv preprint arXiv:2304.05277, 2023.
$20$ Y. Liu, T. Yuan, Y. Wang, Y. Wang, and H. Zhao, "Vectormapnet: End-to-end vectorized hd map learning," in International Conference on Machine Learning. PMLR, 2023, pp. 22 352--22 369.
$10$ Q. Li, Y. Wang, Y. Wang, and H. Zhao, "Hdmapnet: An online hd map construction and evaluation framework," in IEEE International Conference on Robotics and Automation. IEEE, 2022, pp. 4628--4634.
$20$ Y. Liu, T. Yuan, Y. Wang, Y. Wang, and H. Zhao, "Vectormapnet: End-to-end vectorized hd map learning," in International Conference on Machine Learning. PMLR, 2023, pp. 22 352--22 369.
$15$ B. Liao, S. Chen, Y. Zhang, B. Jiang, Q. Zhang, W. Liu, C. Huang, and X. Wang, "Maptrv2: An end-to-end framework for online vectorized hd map construction," arXiv preprint arXiv:2308.05736, 2023.
$21$ B. Liao, S. Chen, X. Wang, T. Cheng, Q. Zhang, W. Liu, and C. Huang, "Maptr: Structured modeling and learning for online vectorized hd map construction," in International Conference on Learning Representations, 2022.
$22$ B. Liao, S. Chen, B. Jiang, T. Cheng, Q. Zhang, W. Liu, C. Huang, and X. Wang, "Lane graph as path: Continuity-preserving path-

wise modeling for online lane graph construction," arXiv preprint arXiv:2303.08815, 2023.
$19$ T. Li, L. Chen, H. Wang, Y. Li, J. Yang, X. Geng, S. Jiang, Y. Wang, H. Xu, C. Xu, J. Yan, P. Luo, and H. Li, "Graph-based topology reasoning for driving scenes," arXiv preprint arXiv:2304.05277, 2023
$23$ N. Garnett, R. Cohen, T. Pe'er, R. Lahav, and D. Levi, "3d-lanenet: end-to-end 3d multiple lane detection," in IEEE International Conference on Computer Vision, 2019, pp. 2921--2930.
$24$ J. Philion and S. Fidler, "Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d," in European

Conference on Computer Vision. Springer, 2020, pp. 194--210.
$25$ L. Reiher, B. Lampe, and L. Eckstein, "A sim2real deep learning approach for the transformation of images from multiple vehicle-mounted cameras to a semantically segmented image in bird's eye view," in IEEE International Conference on Intelligent Transportation Systems. IEEE, 2020, pp. 1--7.
$26$ Z. Li, W. Wang, H. Li, E. Xie, C. Sima, T. Lu, Y. Qiao, and J. Dai, "Bevformer: Learning bird's-eye-view representation from multi-camera images via spatiotemporal transformers," in European Conference on Computer Vision. Springer, 2022, pp. 1--18.
$27$ Y. Liu, T. Wang, X. Zhang, and J. Sun, "Petr: Position embedding transformation for multi-view 3d object detection," in European Conference on Computer Vision. Springer, 2022, pp. 531--548.
$28$ S. Chen, T. Cheng, X. Wang, W. Meng, Q. Zhang, and W. Liu, "Efficient and robust 2d-to-bev representation learning via geometry-guided kernel transformer," arXiv preprint arXiv:2206.04584, 2022.
$11$ L. Chen, C. Sima, Y. Li, Z. Zheng, J. Xu, X. Geng, H. Li, C. He, J. Shi, Y. Qiao et al., "Persformer: 3d lane detection via perspective

transformer and the openlane benchmark," in European Conference on Computer Vision. Springer, 2022, pp. 550--567.
$18$ F. Yan, M. Nie, X. Cai, J. Han, H. Xu, Z. Yang, C. Ye, Y. Fu, M. B. Mi, and L. Zhang, "Once-3dlanes: Building monocular 3d lane detection," in IEEE Conference on Computer Vision and Pattern Recognition, 2022, pp. 17 143--17 152.
$13$ S. Chen, Y. Zhang, B. Liao, J. Xie, T. Cheng, W. Sui, Q. Zhang, C. Huang, W. Liu, and X. Wang, "Vma: Divide-and-conquer vectorized map annotation system for large-scale driving scene," arXiv preprint arXiv:2304.09807, 2023.