MapTR论文笔记

MAPTR: STRUCTURED MODELING AND LEARNING FOR ONLINE VECTORIZED HD MAP CONSTRUCTION

目的

传统高精地图 通过一些离线的基于 SLAM 的方法生成,需要复杂的流程以及高昂的维护费用。基于 bev 分割的建图方法,缺少向量化 实例级的信息,比如说lane结构。为了获得向量化的 HD map,HDMapNet 将像素级的分割结果分组,需要复杂且耗时的后处理。VectorMapNet 将地图的元素表示成点序列,采用了层级式 coarse-to-fine 网络,并且利用了自回归的 decoder 预测 序列化的点集,需要较长的推理时间。

当前在线向量化的在线高清地图的构建方法的效率较低,无法应用到实时的场景。DETR 采用了简单的 encoder-decoder transformer 结构,实现了端到端的目标检测。本文的目的是设计一个 类似于 DETR 结构,高效的端到端的 高清地图的构建方法。

本文的主要贡献主要有两点:

  1. 对于地图元素的统一表示
  2. 针对这种统一表示给出了 一个端到端学习的网络结构

方法

地图元素表示

地图的元素可表示成 折线 和 多边形 两种类别。这两种都可以用 点集 表示。然而点集的排列方式不是唯一的,存在多种排列方式。比如说 折线,它的起点和终点是可以互换的,代表两种方向,对于一些方向不敏感的元素,比如说人行道或者 车道线,两种方向都是可以的。如下图所示:

如果让网络只学习某一种排列方式,是不合理的。因此本文对于每一个地图元素都给出了所有的排列组合方式,用于后续网络的训练。

对于折线,根据起点位置的不同,有两种排列方式。对于多边形,需要考虑两个因素: 起点的位置 以及 连接的顺序(顺时针 或 逆时针),这样可以产生多种排列方式。

匹配方法

和 DETR 一样,MapTR 同时预测 N 个地图元素,N 是一个较大的数字,比一般场景中地图元素的数量要大。

MapTR 中需要使用两种匹配方法以实现 网络预测的元素 和 gt 某个元素的某一个具体的排列方式的匹配。本文的匹配方法有两个层级:Instance-level Matching 以及 Point-level Matching。

Instance-level Matching

在训练时,我们需要把 网络预测的元素 和 gt 匹配起来,这里也是使用的匈牙利匹配算法。

预测元素 和 gt 的 cost 考虑两部分:

元素的类别 以及 位置。类别使用的是 Focal loss,位置的loss使用的是 关于点位置的距离函数。

Point-level Matching

在 实例级的匹配之后,我们已经拿到了 预测元素 和 gt 的匹配关系,然后我们还需要做 点级的 匹配。

预测的点集 会和 gt 排列组合 中 每一个 排列方法 计算 距离,选择距离最小的一个配对。这里使用的是曼哈顿距离。

训练的 loss

  • 分类 loss focal loss
  • point2point loss,曼哈顿距离
  • edge direction loss,point2point loss 只考虑了点,并没有考虑 和折线 和 多边形的 边。edge direction loss 加入了对 边方向的 监督。这里使用的是余弦相似度。
    边可以用向量来表示(空间中两个点的坐标相减)

网络结构

MapTR 结构还是比较直接的 使用的是 bev + transformer decoder 结构

相关资料

https://www.bilibili.com/video/BV1uh4y1X7Ah/?spm_id_from=333.337.search-card.all.click

相关推荐
源于花海7 小时前
IEEE TIE期刊论文学习——基于元学习与小样本重训练的锂离子电池健康状态估计方法
论文阅读·元学习·电池健康管理·并行网络·小样本重训练
m0_6501082413 小时前
UniDrive-WM:自动驾驶领域的统一理解、规划与生成世界模型
论文阅读·自动驾驶·轨迹规划·感知、规划与生成融合·场景理解·未来图像生成
蓝田生玉12320 小时前
LLaMA论文阅读笔记
论文阅读·笔记·llama
*西瓜21 小时前
基于深度学习的视觉水位识别技术与装备
论文阅读·深度学习
大模型最新论文速读21 小时前
BAR-RAG: 通过边界感知训练让单轮 RAG 效果媲美深度研究
论文阅读·人工智能·深度学习·机器学习·自然语言处理
觉醒大王2 天前
科研新手如何读文献?从“乱读”到“会读”
论文阅读·笔记·深度学习·学习·自然语言处理·学习方法
有Li2 天前
SafeRPlan: 用于椎弓根螺钉置入术中规划的安全深度强化学习/文献速递-基于人工智能的医学影像技术
论文阅读·人工智能·深度学习·文献·医学生
小明_GLC2 天前
Is Mamba Effective for Time Series Forecasting?论文阅读
论文阅读
蓝海星梦2 天前
GRPO 算法演进——偏差修正/鲁棒优化/架构扩展篇
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
xx_xxxxx_2 天前
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析2-对比模型与底层模型的基本结构
论文阅读·多模态