【论文阅读】Segment Anything Model for Road Network Graph Extraction

【论文阅读】Segment Anything Model for Road Network Graph Extraction (CVPRW 2024)

[【论文阅读】Segment Anything Model for Road Network Graph Extraction (CVPRW 2024)](#【论文阅读】Segment Anything Model for Road Network Graph Extraction (CVPRW 2024))
- [1. 摘要](#1. 摘要)
- [2. 方法](#2. 方法)
- - [2.1 整体结构](#2.1 整体结构)
  - [2.2 Image Encoder](#2.2 Image Encoder)
  - [2.3 Mask Decoder](#2.3 Mask Decoder)
  - [2.4 Topology Decoder](#2.4 Topology Decoder)
  - [2.5 Label Generation](#2.5 Label Generation)

简单来说，本工作将矢量道路线提取的部分流程视为分割任务，利用SAM预训练模型的强大分割能力，实现了SOTA精度和极高的推理速度。

SAM-Road整体由三个部分构成：

采用最小版本，即ViT-B。训练时采用0.1倍的基础学习率来微调。

为了提升整体以及交叉点的提取精度，Mask Decoder同时输出两个通道数为1的masks ，形状为(H_img, W_img, 2)。

两个masks经处理后，对二者进行join，并将intersections设置较高的分数，再次应用NMS得到最终的graph vertices。

Topology Decoder由3层多头注意力组成，用于将"离散"的vertices连接成拓扑结构。

本方法目的是寻找每个顶点的一阶邻居，并将此视为二分类任务。步骤如下：

选择一个source vertex；
在 R n b r R_{nbr} Rnbr范围内选择至多 N n b r N_{nbr} Nnbr个target vertex，构成多个vertex pairs；

注意，source vertex与每个target vertex都是一阶邻居关系
对所有选中的顶点计算特征（根据坐标，通过在特征图上进行Bilinear Sample得到顶点特征，即Figure 2中的Source Feat和Target Feat）；
对所有vertex pairs计算offset，得到 d k d_{k} dk；
拼接Source Feat，Target Feat和 d k d_k dk，得到形状为 ( N n b r , 2 D f e a t + 2 ) (N_{nbr}, 2D_{feat}+2) (Nnbr,2Dfeat+2)的向量，并proj到 ( N n b r , D f e a t ) (N_{nbr}, D_{feat}) (Nnbr,Dfeat)作为query；
经3层多头注意力后，将query输入线性层得到分类logits，表示vertex pairs相连的概率。

Mask Labels
1. 使用宽度为3个像素的mask代表道路线段；
2. 使用半径为3个像素的mask代表intersections；
Topology Labels
- 以教师强制方式训练Topology Decoder
  1. 均匀采样gt mask得到模拟概率图，在此基础上应用NMS Vertices等算法；
  2. 使用高斯分布对gt vertices坐标进行随机扰动；