BEVFormer:基于时空 Transformer 的多相机鸟瞰图表征学习

在自动驾驶感知任务中,基于多相机图像的 3D 目标检测和地图分割等任务是核心支撑技术。传统方法要么依赖激光雷达(LiDAR)导致部署成本高昂,要么基于单目相机框架无法有效融合多视角信息,要么在 BEV(Bird's-Eye-View,鸟瞰图)特征生成中过度依赖深度信息导致误差累积。针对这些痛点,上海 AI 实验室、南京大学等机构联合提出了 BEVFormer 框架,通过时空 Transformer 从多相机图像中学习统一的 BEV 表征,为自动驾驶多感知任务提供了高效解决方案。

原文链接:https://arxiv.org/pdf/2203.17270

代码链接:https://github.com/fundamentalvision/BEVFormer

沐小含持续分享前沿算法论文,欢迎关注...

一、论文核心背景与动机

1.1 自动驾驶 3D 感知的核心挑战

自动驾驶系统需要精准理解周围环境的 3D 结构,包括目标位置、尺寸、速度以及道路拓扑等信息。当前 3D 感知方案主要分为两类:

  • LiDAR-based 方法:精度高、直接获取 3D 点云,但硬件成本昂贵,且在识别交通灯等视觉语义元素时存在局限。
  • Camera-based 方法:成本低、覆盖范围广、语义信息丰富,但从 2D 图像推断 3D 结构属于病态问题,传统方案存在诸多缺陷:
    • 单目相机框架 + 跨相机后处理:无法捕捉多视角关联信息,性能和效率低下;
    • 基于深度估计的 BEV 生成方法:依赖深度值或深度分布的准确性,误差累积严重;
    • 缺乏有效的时序信息利用:现有多相机 3D 检测方法大多忽略时序线索,难以准确估计目标速度和检测遮挡目标。

1.2 核心动机

BEVFormer 的设计动机源于两个关键洞察:

  1. BEV 表征的统一性价值:BEV 视角能清晰呈现目标的位置和尺度关系,是连接感知与规划的理想桥梁,可同时支撑 3D 检测、地图分割等多个任务;
  2. 时空信息的互补性:空间信息(多相机视角)提供当前环境的全局结构,时序信息(历史 BEV 特征)辅助推断目标运动状态和遮挡区域,二者结合可显著提升感知鲁棒性;
  3. Transformer 的动态聚合能力:Transformer 的注意力机制能够动态聚合关键特征,无需依赖固定的 3D 先验或精确深度估计,适合自适应学习 BEV 特征。

二、BEVFormer 核心技术原理

BEVFormer 的核心目标是通过时空 Transformer 编码器,将多相机图像特征和历史 BEV 特征聚合为统一的 BEV 表征,同时支撑 3D 检测和地图分割任务。其整体架构如图 2 所示,主要包含三大核心组件:BEV 查询(BEV Queries)、空间交叉注意力(Spatial Cross-Attention)和时序自注意力(Temporal Self-Attention)。

2.1 整体架构流程

在时间戳 时刻,BEVFormer 的工作流程如下:

  1. 多相机图像经骨干网络(如 ResNet-101)提取特征,其中为第个相机的特征,为相机数量;
  2. 保存前一时刻的 BEV 特征
  3. 6 个堆叠的编码器层对 BEV 查询进行迭代优化:
    • 时序自注意力:BEV 查询从历史 BEV 特征中聚合时序信息;
    • 空间交叉注意力:BEV 查询从多相机特征中聚合空间信息;
    • 前馈网络(Feed Forward):对聚合后的特征进行非线性变换;
  4. 最终生成当前时刻的统一 BEV 特征,输入到任务专用头(3D 检测头、地图分割头)得到感知结果。
  • (a) 编码器层包含网格状 BEV 查询、时序自注意力和空间交叉注意力;
  • (b) 空间交叉注意力中,每个 BEV 查询仅与多相机图像中的感兴趣区域交互;
  • (c) 时序自注意力中,每个 BEV 查询同时与当前查询和历史 BEV 特征交互。

2.2 核心组件详解

2.2.1 BEV 查询(BEV Queries)

BEV 查询是预定义的网格状可学习参数,形式为,其中:

  • 为 BEV 平面的空间分辨率(如 nuScenes 数据集默认 200×200);
  • C为特征维度(默认 256);
  • 每个查询(对应 BEV 平面上的位置)负责编码该网格单元对应的真实世界区域特征;
  • BEV 网格的每个单元对应真实世界的尺寸为 米(如 nuScenes 中),且 BEV 特征的中心默认与自车位置对齐;
  • 为增强位置感知能力,在输入编码器前为 BEV 查询添加可学习的位置嵌入(Positional Embedding)。
2.2.2 空间交叉注意力(Spatial Cross-Attention, SCA)

空间交叉注意力的核心目标是高效聚合多相机图像中的空间特征,解决传统全局注意力计算成本过高的问题。其设计基于可变形注意力(Deformable Attention),并针对 3D 场景进行适配,具体流程如下:

  1. 3D 参考点生成 :将 BEV 查询(对应 BEV 平面位置)提升为 "柱形查询"(pillar-like query),在 Z 轴(高度)方向预定义个锚点高度(如从 - 5m 到 3m 均匀采样),形成 3D 参考点集合,其中对应的真实世界坐标(以自车为原点)。

  2. 相机视角投影 :通过相机的投影矩阵,将每个 3D 参考点投影到各相机的 2D 图像平面,得到投影点(第个相机上第个 3D 参考点的 2D 投影)。

  3. 有效视角筛选 :仅保留投影点落在图像有效区域内的相机(称为 "命中视角"),避免无效计算。

  4. 可变形注意力聚合:对每个命中视角,围绕投影点采样局部区域特征,通过可变形注意力计算加权和,最终聚合为该 BEV 查询的空间特征。

空间交叉注意力的数学表达为

其中DeformAttn为可变形注意力函数,通过预测参考点偏移量和注意力权重,高效聚合局部特征,平衡感受野与计算成本。

2.2.3 时序自注意力(Temporal Self-Attention, TSA)

时序自注意力旨在利用历史 BEV 特征提升当前感知性能,解决目标速度估计和遮挡检测问题,其设计灵感源于循环神经网络(RNN)的隐藏状态传递机制,具体流程如下:

  1. 历史 BEV 特征对齐 :由于自车在时刻存在运动,前一时刻的 BEV 特征与当前 BEV 查询的坐标系统存在偏移,需通过自车运动信息(ego-motion)将对齐到当前坐标系,得到对齐后的历史特征,确保 "同一网格对应同一真实世界区域"。

  2. 时序特征聚合 :BEV 查询和对齐后的历史特征进行可变形注意力交互,建模时序依赖关系。每个查询会根据自身特征,在的对应网格及周边区域采样历史特征(通过预测偏移量实现),并通过注意力权重加权求和,将历史信息(如"前一帧该区域的车辆速度""被遮挡目标的历史位置")融入当前查询。与传统堆叠多帧 BEV 特征不同,这种方式仅利用前一帧信息,计算成本极低。

  3. 边界情况处理 :对于序列的第一帧(无历史BEV特征),时序自注意力退化为普通自注意力,即当前BEV查询与自身的重复向量进行交互,避免特征缺失。

时序自注意力的数学表达为:

其中偏移量由当前查询和历史特征的拼接结果预测,确保时序关联的准确性。

2.3 任务头设计

BEVFormer 的 BEV 特征具有极强的通用性,可通过简单适配的任务头支持 3D 检测和地图分割:

2.3.1 3D 检测头

基于可变形 DETR 设计端到端检测头,主要修改包括:

  • 输入:单尺度 BEV 特征
  • 输出:3D 边界框(中心坐标、尺寸、航向角)和速度
  • 损失函数:仅使用损失监督 3D 边界框回归,无需 NMS 后处理;
  • 推理时保留置信度最高的 300 个预测框。
2.3.2 地图分割头

基于 Panoptic SegFormer 的掩码解码器设计,核心思路:

  • 为每个语义类别(如车辆、道路、车道线)分配一个可学习的类别查询;

  • 通过多头注意力机制,从 BEV 特征中生成每个类别的语义掩码;

  • 支持的语义类别包括车辆、可行驶区域、车道线等自动驾驶关键元素。

2.4 训练与推理细节

2.4.1 训练阶段
  • 数据采样:对每个时间戳 的样本,从过去 2 秒的连续序列中随机采样 3 个额外样本(共 4 个样本:),增强自车运动的多样性;
  • 梯度计算:仅对 时刻的 BEV 特征和任务头计算梯度,前 3 个时刻的 BEV 特征生成过程无梯度传播;
  • 优化器:AdamW,权重衰减
  • 学习率:初始学习率,骨干网络学习率乘数为 0.1,余弦退火衰减;
  • 训练轮次:24 个 epoch。
2.4.2 推理阶段
  • 按时间顺序处理视频序列,保存前一帧的 BEV 特征供当前帧使用;
  • 推理速度高效,与主流相机 - based 方法(如 DETR3D、FCOS3D)相当。

三、实验验证与结果分析

3.1 实验设置

3.1.1 数据集
  • nuScenes:1000 个场景(每个约 20 秒),6 个相机(360° 水平视场),1.4M 个 3D 标注框(10 个类别),评估指标包括 NDS(nuScenes 检测分数)、mAP、mATE(平均平移误差)等;
  • Waymo Open Dataset:798 个训练序列、202 个验证序列,5 个相机(252° 水平视场),仅评估车辆类别,评估指标包括 APH(带航向信息的平均精度)、3D IoU(阈值 0.5/0.7)。
3.1.2 基线模型
  • VPN:基于多层感知器(MLP)的跨视角语义分割方法;
  • Lift-Splat:基于深度分布的 BEV 生成方法;
  • DETR3D:基于 3D 查询的多相机 3D 检测方法;
  • BEVFormer-S:BEVFormer 的静态版本(时序自注意力替换为普通自注意力,不使用历史 BEV 特征)。
3.1.3 模型配置
  • 骨干网络:ResNet101-DCN 或 VoVnet-99;
  • FPN 输出:多尺度特征(1/16、1/32、1/64),特征维度 256;
  • BEV 查询尺寸:nuScenes(200×200)、Waymo(300×220);
  • 3D 参考点数量

3.2 核心实验结果

3.2.1 3D 目标检测性能(nuScenes)

表 1 和表 2 展示了 nuScenes 测试集和验证集的 3D 检测结果,核心结论如下:

  • BEVFormer 在测试集上达到 56.9% NDS,比之前的 SOTA 方法 DETR3D 高 9.0 个百分点(56.9% vs. 47.9%);
  • 在验证集上,BEVFormer 的 NDS 达到 51.7%,比 DETR3D 高 9.2 个百分点(51.7% vs. 42.5%);
  • 速度估计性能突出:mAVE(平均速度误差)仅为 0.378 m/s,远超其他相机 - based 方法,接近 LiDAR-based 方法(如 PointPainting 的 0.35 m/s);
  • BEVFormer-S(无时序信息)的 NDS 为 44.8%,验证了时序自注意力的显著增益(51.7% - 44.8% = 6.9 个百分点)。
3.2.2 Waymo 数据集性能

表 3 展示了 Waymo 验证集的车辆检测结果,核心结论:

  • 在 IoU=0.5 的 LEVEL_1 和 LEVEL_2 难度下,BEVFormer 的 APH 分别比 DETR3D 高 6.0% 和 2.5%(0.280 vs. 0.220,0.241 vs. 0.216);
  • 采用 nuScenes 指标评估时,BEVFormer 的 NDS 比 DETR3D 高 3.2 个百分点(0.426 vs. 0.394);
  • 与单目 3D 检测方法 CaDNN 相比,BEVFormer 在 LEVEL_1 和 LEVEL_2 难度下的 APH 分别高 13.3% 和 11.2%,验证了多相机融合的优势。
3.2.3 多任务感知性能

表 4 展示了 3D 检测和地图分割联合训练的结果,核心结论:

  • BEVFormer 在联合训练下仍保持优异性能,NDS 达到 52.0%,比 Lift-Splat * 高 11.0 个百分点(52.0% vs. 41.0%);
  • 车道分割 IoU 达到 23.9%,比 Lift-Splat * 高 5.6 个百分点(23.9% vs. 18.3%);
  • 多任务训练通过共享骨干网络和 BEV 编码器,节省了计算成本和推理时间,但存在轻微的负迁移现象(道路和车道分割性能略低于单独训练)。

3.3 消融实验分析

3.3.1 空间交叉注意力的有效性

表 5 对比了不同注意力机制在 BEVFormer-S 上的性能,核心结论:

  • 可变形注意力(BEVFormer-S)的 NDS(0.448)显著高于全局注意力(0.404)和点交互注意力(0.423);
  • 全局注意力虽鲁棒性强,但计算成本极高(GPU 内存消耗~36G);
  • 点交互注意力仅关注参考点特征,感受野有限,性能受限;
  • 可变形注意力通过采样局部感兴趣区域,平衡了感受野、计算成本和鲁棒性。
3.3.2 时序自注意力的有效性

图 3 展示了不同可见度子集(0-40%、40-60%、60-80%、80-100%)的检测性能,核心结论:

  • 时序信息显著提升低可见度目标的召回率:在 0-40% 可见度子集上,BEVFormer 的召回率比 BEVFormer-S 和 DETR3D 高 6 个百分点以上;
  • 时序信息改善目标平移误差(mATE)、航向角误差(mAOE)和速度误差(mAVE),但对尺度误差(mASE)影响较小;
  • 验证了时序信息在遮挡检测和运动状态估计中的核心作用。
  • (a) 召回率对比(低可见度子集差距最显著);
  • (b)(d)(e) 平移、航向角、速度误差对比;
  • (c)(f) 尺度、属性误差对比(差距较小)。
3.3.3 模型尺度与推理 latency 权衡

表 6 展示了不同模型配置的性能与 latency 对比(V100 GPU,输入图像 900×1600),核心结论:

  • 默认配置(多尺度特征、200×200 BEV 查询、6 层编码器):latency 130ms,NDS 51.7%;
  • 轻量化配置 D(单尺度特征、100×100 BEV 查询、1 层编码器):latency 仅 7ms,NDS 47.8%(仅下降 3.9 个百分点);
  • 模型具有极强的灵活性,可通过调整 BEV 查询尺寸、编码器层数、特征尺度等参数,在性能和效率间灵活权衡。
3.3.4 对相机外参噪声的鲁棒性

图 6 展示了不同相机外参噪声水平下的 NDS 变化,核心结论:

  • 随着噪声水平提升(0-4 级),所有方法的性能均下降,但 BEVFormer 的鲁棒性最优;
  • 噪声水平为 4 时,BEVFormer 的 NDS 仅下降 14.3%(从 0.517 降至 0.443),低于 BEVFormer-S(15.2%)和 BEVFormer-S(point)(17.3%);
  • 若训练时引入噪声(BEVFormer (noise)),鲁棒性进一步提升,噪声水平 4 时 NDS 下降仅 8.9%;
  • 采用全局注意力的 BEVFormer-S(global)鲁棒性最强,噪声水平 4 时 NDS 下降仅 4.0%,验证了全局注意力对相机标定误差的耐受性。

3.4 可视化结果

图 4 和图 7 展示了 BEVFormer 的定性结果,核心结论:

  • BEVFormer 能准确检测多相机图像中的 3D 目标,生成的 BEV 边界框与真实场景高度吻合;
  • 时序信息帮助 BEVFormer 检测到 BEVFormer-S 遗漏的遮挡目标(如图 7 中被广告牌遮挡的两辆公交车);
  • 地图分割结果与 3D 检测结果高度一致,验证了 BEV 特征的统一性和有效性。

四、核心贡献与局限性

4.1 核心贡献

  1. 提出 BEVFormer 框架,首次将时空 Transformer 用于多相机 BEV 表征学习,统一支撑 3D 检测和地图分割任务;
  2. 设计网格状 BEV 查询,结合空间交叉注意力和时序自注意力,高效聚合多相机空间特征和历史时序特征;
  3. 在 nuScenes 和 Waymo 数据集上取得 SOTA 性能,NDS 达到 56.9%(nuScenes 测试集),接近 LiDAR-based 方法,同时显著提升速度估计和低可见度目标检测性能;
  4. 模型具有极强的灵活性和鲁棒性,可通过调整配置权衡性能与效率,对相机标定误差具有较强耐受性。

4.2 局限性

  1. 与 LiDAR-based 方法仍存在性能差距,尤其在复杂天气(如雨、雾)和极端光照条件下,3D 位置估计精度有待提升;
  2. 推理速度仍受限于骨干网络,多相机图像特征提取的计算成本较高,难以满足毫秒级实时性需求;
  3. 多任务训练存在负迁移现象,道路和车道分割性能略低于单独训练,需进一步优化任务融合策略。

五、总结与展望

BEVFormer 通过时空 Transformer 的创新设计,突破了传统相机 - based 3D 感知的诸多瓶颈,为自动驾驶感知提供了一种低成本、高性能的统一解决方案。其核心洞察 ------BEV 表征作为时空信息的融合载体------ 为后续研究指明了重要方向。未来可进一步探索:

  1. 高效骨干网络设计,降低多相机特征提取的计算成本;
  2. 更先进的时序融合策略,如引入 Transformer-XL 等长效依赖建模机制;
  3. 多模态融合(如融合雷达、超声波传感器数据),进一步提升恶劣环境下的感知鲁棒性;
  4. 端到端感知 - 规划一体化,利用 BEV 表征的统一性连接感知与决策模块,推动自动驾驶系统的全栈优化。

BEVFormer 的开源代码(https://github.com/fundamentalvision/BEVFormer)为后续研究提供了强大的基线,有望成为自动驾驶 3D 感知领域的里程碑工作。

相关推荐
sca1p3118 小时前
新南威尔士大学 LiM
论文阅读·人工智能·加密流量分类
m0_6501082420 小时前
Lift, Splat, Shoot:自动驾驶多视图相机的 BEV 语义表示学习
论文阅读·自动驾驶·数据驱动·lss·纯视觉bev感知·bev 语义分割·可解释的端到端轨迹规划
m0_650108241 天前
Sparse4D v3:端到端 3D 检测与跟踪的技术突破
论文阅读·自动驾驶·sparse4d v3·端到端3d感知框架·去噪思想·端到端跟踪·纯视觉感知
m0_650108242 天前
VADv2:基于概率规划的端到端矢量化自动驾驶
论文阅读·自动驾驶·端到端矢量化·驾驶场景中的不确定性·概率场建模·多模态编码·vadv2
提娜米苏2 天前
[论文笔记] End-to-End Audiovisual Fusion with LSTMs
论文阅读·深度学习·lstm·语音识别·论文笔记·多模态
m0_650108242 天前
DiffusionDrive:面向端到端自动驾驶的截断扩散模型
论文阅读·扩散模型·端到端自动驾驶·阶段扩散策略·高级联扩散解码器·cvpr2025
m0_650108242 天前
DiffVLA:视觉语言引导的扩散规划在自动驾驶中的创新与实践
自动驾驶·扩散模型·多模态融合·端到端规划·混合稀疏-稠密感知模块·vlm命令引导·截断扩散
Wai-Ngai2 天前
自动驾驶控制算法——模型预测控制(MPC)
人工智能·机器学习·自动驾驶
提娜米苏2 天前
[论文笔记] 基于 LSTM 的端到端视觉语音识别 (End-to-End Visual Speech Recognition with LSTMs)
论文阅读·深度学习·计算机视觉·lstm·语音识别·视觉语音识别