自动驾驶核心技术：BEV 特征 + Transformer 解码器

一. 前言

在自动驾驶系统中，高精地图（HD Map）是定位、感知、预测、规划的核心基础设施。近几年，端到端矢量化地图构建成为主流方向，而它的核心范式只有一句话：

BEV 特征 + Transformer 解码器

几乎所有顶尖方法（MapTR、MapTRv2、MapQR、CAFMap）都基于这套架构。这篇博客用最通俗、最直观、最工程化的方式，把它彻底讲清楚。

1. 什么是矢量化地图？为什么它重要？

传统栅格地图（raster map）是图片，占空间、难更新、不适合规划。矢量化地图 用点、线、多边形表示道路元素：

车道线
人行横道
道路边界
停止线、减速带等

优点：

体积小
精度高
可直接用于路径规划
支持在线实时更新

所以，矢量化地图 = 自动驾驶的 "数字道路"。

2. 核心基础：什么是 BEV 特征？

BEV = Bird's-Eye View（鸟瞰视角）

简单理解：BEV 特征 = 自动驾驶的上帝视角环境图

它把多目相机的透视图像，通过投影与变换，转换成：

统一坐标系
无透视形变
真实物理距离
自车周围 100m×100m 的全局特征图

在 MapQR / CAFMap 中，BEV 特征形状为：

复制代码

[B, 256, 200, 200]

200×200：空间网格
每个网格对应真实世界 0.5m×0.5m
256 通道：存储语义、位置、形状、方向信息

一句话：BEV 特征是模型 "看到的世界"。

3. 核心模块：Transformer 解码器到底在干嘛？

Transformer 解码器是端到端生成矢量化地图的大脑 。（更详细的解释）

它的工作方式非常简单：拿着一组 "查询（Query）"，去 BEV 特征里 "查找信息"，逐步生成地图元素。

可以理解为：

BEV 特征 = 一本完整的环境百科全书
Transformer 解码器 = 绘图专家
Query = 专家手里的 "待画元素"

专家不断询问 BEV → 获取信息 → 画出车道线、人行道、道路边界。

二. BEV + Transformer 解码器：完整流程

步骤 1：图像 → 2D 图像特征

输入：6 目环视图像Backbone：ResNet-50 + FPN输出：多尺度图像特征

步骤 2：2D 特征 → BEV 特征（视图转换）

使用 GKT 技术，将图像特征投影到鸟瞰视角：

复制代码

图像特征 → BEV 特征 [B,256,200,200]

步骤 3：初始化查询（Query）

模型初始化 900 个实例查询 ，代表：900 个待生成的地图元素

步骤 4：Transformer 解码器（6 层）

每一层做三件关键事情：

（1）自注意力（Self-Attention）

让 900 个查询互相通信，避免：

重复预测
结构冲突
道路不连续

（2）交叉注意力（Cross-Attention）

查询 ↔ BEV 特征查询从 BEV 中 "读取" 该位置的道路信息，逐渐变成真实地图元素。

自注意力机制就是让查询和查询对话，而交叉注意力机制是让查询和外部对话

（3）FFN 前馈网络

进一步提纯特征，让形状更精准。

步骤 5：输出预测

经过 6 层解码器，900 个查询变成：

类别预测（车道线 / 人行道 / 路边界）
点集坐标（x,y）
方向信息

最终组合成完整的矢量化高精地图。

三. 改进：MapQR 的 "分散 - 聚合查询"

传统方法：一个点 → 一个查询缺点：查询爆炸、显存占用大、点之间信息不一致。

MapQR 提出创新范式：Scatter - Gather Query（分散 - 聚合查询）

流程：

一个实例 → 一个查询
Scatter（分散）：1 个实例 → 拆成 18 个点，提取细节
Gather（聚合）：18 个点 → 合并回 1 个实例
最终输出完整、一致、光滑的地图元素

优势：

显存大幅降低
速度提升 2~3 倍
预测更稳定、更连续
达到 SOTA 精度

四. 个人研究：CAFMap（CNN + Transformer 融合）

BEV + Transformer 虽强，但有短板：

Transformer：擅长全局结构（道路走向）
CNN：擅长局部细节（拐角、边缘、纹理）

CAFMap 提出 CAFM 卷积注意力融合模块：

局部分支：CNN 捕捉精细纹理
全局分支：Attention 捕捉长程依赖
双分支融合，精度再提升

最终：BEV + Transformer + CAFM = 最强矢量化地图构建