MapTR论文笔记

MAPTR: STRUCTURED MODELING AND LEARNING FOR ONLINE VECTORIZED HD MAP CONSTRUCTION

目的

传统高精地图 通过一些离线的基于 SLAM 的方法生成,需要复杂的流程以及高昂的维护费用。基于 bev 分割的建图方法,缺少向量化 实例级的信息,比如说lane结构。为了获得向量化的 HD map,HDMapNet 将像素级的分割结果分组,需要复杂且耗时的后处理。VectorMapNet 将地图的元素表示成点序列,采用了层级式 coarse-to-fine 网络,并且利用了自回归的 decoder 预测 序列化的点集,需要较长的推理时间。

当前在线向量化的在线高清地图的构建方法的效率较低,无法应用到实时的场景。DETR 采用了简单的 encoder-decoder transformer 结构,实现了端到端的目标检测。本文的目的是设计一个 类似于 DETR 结构,高效的端到端的 高清地图的构建方法。

本文的主要贡献主要有两点:

  1. 对于地图元素的统一表示
  2. 针对这种统一表示给出了 一个端到端学习的网络结构

方法

地图元素表示

地图的元素可表示成 折线 和 多边形 两种类别。这两种都可以用 点集 表示。然而点集的排列方式不是唯一的,存在多种排列方式。比如说 折线,它的起点和终点是可以互换的,代表两种方向,对于一些方向不敏感的元素,比如说人行道或者 车道线,两种方向都是可以的。如下图所示:

如果让网络只学习某一种排列方式,是不合理的。因此本文对于每一个地图元素都给出了所有的排列组合方式,用于后续网络的训练。

对于折线,根据起点位置的不同,有两种排列方式。对于多边形,需要考虑两个因素: 起点的位置 以及 连接的顺序(顺时针 或 逆时针),这样可以产生多种排列方式。

匹配方法

和 DETR 一样,MapTR 同时预测 N 个地图元素,N 是一个较大的数字,比一般场景中地图元素的数量要大。

MapTR 中需要使用两种匹配方法以实现 网络预测的元素 和 gt 某个元素的某一个具体的排列方式的匹配。本文的匹配方法有两个层级:Instance-level Matching 以及 Point-level Matching。

Instance-level Matching

在训练时,我们需要把 网络预测的元素 和 gt 匹配起来,这里也是使用的匈牙利匹配算法。

预测元素 和 gt 的 cost 考虑两部分:

元素的类别 以及 位置。类别使用的是 Focal loss,位置的loss使用的是 关于点位置的距离函数。

Point-level Matching

在 实例级的匹配之后,我们已经拿到了 预测元素 和 gt 的匹配关系,然后我们还需要做 点级的 匹配。

预测的点集 会和 gt 排列组合 中 每一个 排列方法 计算 距离,选择距离最小的一个配对。这里使用的是曼哈顿距离。

训练的 loss

  • 分类 loss focal loss
  • point2point loss,曼哈顿距离
  • edge direction loss,point2point loss 只考虑了点,并没有考虑 和折线 和 多边形的 边。edge direction loss 加入了对 边方向的 监督。这里使用的是余弦相似度。
    边可以用向量来表示(空间中两个点的坐标相减)

网络结构

MapTR 结构还是比较直接的 使用的是 bev + transformer decoder 结构

相关资料

https://www.bilibili.com/video/BV1uh4y1X7Ah/?spm_id_from=333.337.search-card.all.click

相关推荐
数智工坊3 小时前
【Transfer CLIP论文阅读】跨模态大模型赋能!CLIP迁移学习实现超强泛化图像去噪
论文阅读·人工智能·迁移学习
小马哥crazymxm8 小时前
arXiv论文周选 (2026-W18)
论文阅读·科技·考研
薛定e的猫咪1 天前
强化学习中的OOD检测:从状态异常到分布偏移
论文阅读·人工智能·深度学习
Chunyyyen1 天前
【第四十三周】论文阅读
论文阅读
数智工坊2 天前
【Mask2Former论文阅读】:基于掩码注意力的通用分割Transformer,大一统全景/实例/语义分割
论文阅读·深度学习·transformer
大模型最新论文速读2 天前
Select to Think:蒸馏 token 排序能力,效果平均提升24%
论文阅读·人工智能·深度学习·机器学习·自然语言处理
chnyi6_ya2 天前
论文笔记 | RefineAnything:面向完美局部细节的多模态区域精细化
论文阅读·人工智能·学习
数智工坊3 天前
【SAM-DETR论文阅读】:基于语义对齐匹配的DETR极速收敛检测框架
网络·论文阅读·人工智能·深度学习·transformer
张较瘦_4 天前
[论文阅读] AI + 软件工程 | 突破LLM代码生成瓶颈:编程知识图谱(PKG)让检索增强更精准
论文阅读·人工智能·软件工程
传说故事4 天前
【论文阅读】HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
论文阅读·人工智能·机器人·具身智能