MapTR论文笔记

MAPTR: STRUCTURED MODELING AND LEARNING FOR ONLINE VECTORIZED HD MAP CONSTRUCTION

目的

传统高精地图 通过一些离线的基于 SLAM 的方法生成,需要复杂的流程以及高昂的维护费用。基于 bev 分割的建图方法,缺少向量化 实例级的信息,比如说lane结构。为了获得向量化的 HD map,HDMapNet 将像素级的分割结果分组,需要复杂且耗时的后处理。VectorMapNet 将地图的元素表示成点序列,采用了层级式 coarse-to-fine 网络,并且利用了自回归的 decoder 预测 序列化的点集,需要较长的推理时间。

当前在线向量化的在线高清地图的构建方法的效率较低,无法应用到实时的场景。DETR 采用了简单的 encoder-decoder transformer 结构,实现了端到端的目标检测。本文的目的是设计一个 类似于 DETR 结构,高效的端到端的 高清地图的构建方法。

本文的主要贡献主要有两点:

  1. 对于地图元素的统一表示
  2. 针对这种统一表示给出了 一个端到端学习的网络结构

方法

地图元素表示

地图的元素可表示成 折线 和 多边形 两种类别。这两种都可以用 点集 表示。然而点集的排列方式不是唯一的,存在多种排列方式。比如说 折线,它的起点和终点是可以互换的,代表两种方向,对于一些方向不敏感的元素,比如说人行道或者 车道线,两种方向都是可以的。如下图所示:

如果让网络只学习某一种排列方式,是不合理的。因此本文对于每一个地图元素都给出了所有的排列组合方式,用于后续网络的训练。

对于折线,根据起点位置的不同,有两种排列方式。对于多边形,需要考虑两个因素: 起点的位置 以及 连接的顺序(顺时针 或 逆时针),这样可以产生多种排列方式。

匹配方法

和 DETR 一样,MapTR 同时预测 N 个地图元素,N 是一个较大的数字,比一般场景中地图元素的数量要大。

MapTR 中需要使用两种匹配方法以实现 网络预测的元素 和 gt 某个元素的某一个具体的排列方式的匹配。本文的匹配方法有两个层级:Instance-level Matching 以及 Point-level Matching。

Instance-level Matching

在训练时,我们需要把 网络预测的元素 和 gt 匹配起来,这里也是使用的匈牙利匹配算法。

预测元素 和 gt 的 cost 考虑两部分:

元素的类别 以及 位置。类别使用的是 Focal loss,位置的loss使用的是 关于点位置的距离函数。

Point-level Matching

在 实例级的匹配之后,我们已经拿到了 预测元素 和 gt 的匹配关系,然后我们还需要做 点级的 匹配。

预测的点集 会和 gt 排列组合 中 每一个 排列方法 计算 距离,选择距离最小的一个配对。这里使用的是曼哈顿距离。

训练的 loss

  • 分类 loss focal loss
  • point2point loss,曼哈顿距离
  • edge direction loss,point2point loss 只考虑了点,并没有考虑 和折线 和 多边形的 边。edge direction loss 加入了对 边方向的 监督。这里使用的是余弦相似度。
    边可以用向量来表示(空间中两个点的坐标相减)

网络结构

MapTR 结构还是比较直接的 使用的是 bev + transformer decoder 结构

相关资料

https://www.bilibili.com/video/BV1uh4y1X7Ah/?spm_id_from=333.337.search-card.all.click

相关推荐
薛定e的猫咪10 天前
【AAAI 2025】基于扩散模型的昂贵多目标贝叶斯优化
论文阅读·人工智能·算法
YMWM_10 天前
论文阅读“SimVLA: A Simple VLA Baseline for Robotic Manipulation“
论文阅读·vla
m0_6501082410 天前
VLN-Zero:零样本机器人导航的神经符号视觉语言规划框架
论文阅读·零样本·机器人导航·视觉语言导航·未知环境快速适配·符号化场景图·vlm推理
晓山清11 天前
【论文阅读】Self-supervised Learning of Person-specific Facial Dynamics for APR
论文阅读
张较瘦_11 天前
[论文阅读] AI + 教育 | 不是单纯看视频!软件工程培训的游戏化融合之道
论文阅读·人工智能·软件工程
张较瘦_11 天前
[论文阅读] AI + 软件工程 | 用统计置信度破解AI功能正确性评估难题——SCFC方法详解
论文阅读·人工智能·软件工程
Matrix_1112 天前
论文阅读--Agent AI 探索多模态交互的前沿领域(二)
论文阅读·人工智能
万里鹏程转瞬至13 天前
论文简读 | TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times
论文阅读·深度学习·aigc
Matrix_1113 天前
论文阅读--Agent AI 探索多模态交互的前沿领域(一)
论文阅读·人工智能
@––––––14 天前
论文阅读笔记:π 0 : A Vision-Language-Action Flow Model for General Robot Control
论文阅读·笔记