
原文链接:https://arxiv.org/pdf/2112.11790
代码链接:https://github.com/HuangJunJie2017/BEVDet
沐小含持续分享前沿算法论文,欢迎关注...
一、引言
在自动驾驶领域,环境感知是决策系统的核心支撑,而 3D 目标检测作为感知任务的关键环节,直接影响自动驾驶系统对周围物体位置、尺度、姿态和速度的判断精度。随着 2D 视觉感知技术的飞速发展,Mask R-CNN 等高性能、可扩展且支持多任务的范式层出不穷,但在自动驾驶场景中,3D 目标检测与鸟瞰图(BEV)语义分割等核心任务仍采用不同的技术范式,难以兼顾精度与效率,也限制了多任务学习的落地。
当前主流的多相机 3D 目标检测方法(如 FCOS3D、PGD)多基于图像视角进行感知,虽在部分指标上表现尚可,但在目标平移、速度和姿态估计等方面存在明显短板;而 BEV 语义分割任务则被基于 BEV 视角的方法(如 PON、Lift-Splat-Shoot)主导。这引发了一个关键问题:哪种视角空间更适合自动驾驶感知任务?能否构建一个统一框架同时处理这些任务?
为解决上述问题,本文提出了BEVDet范式,首次将 BEV 视角应用于多相机 3D 目标检测,通过模块化设计复用现有成熟组件,并针对 BEV 空间的特性优化数据增强策略和非极大值抑制(NMS)算法,实现了精度与效率的优异平衡。实验表明,BEVDet-Tiny 版本在 nuScenes 验证集上达到 31.2% mAP 和 39.2% NDS,仅需 215.3 GFLOPs 的计算量(为 FCOS3D 的 11%),推理速度达 15.6 FPS(是 FCOS3D 的 9.2 倍);高精度版本 BEVDet-Base 更是以 39.3% mAP 和 47.2% NDS 的成绩大幅超越现有方法,为自动驾驶 3D 感知提供了全新的高效解决方案。
二、相关工作综述
2.1 基于视觉的 2D 感知
2D 视觉感知的复兴始于 AlexNet 在图像分类任务的突破,随后残差网络(ResNet)、高分辨率网络(HRNet)、注意力机制网络(如 Vision Transformer)等结构不断刷新图像编码器的性能上限,进而推动了目标检测、语义分割、人体姿态估计等复杂任务的发展。
在目标检测领域,两阶段方法(如 Faster R-CNN)、单阶段方法(如 RetinaNet)及其衍生模型长期占据主导地位。受 Mask R-CNN 启发,多任务学习凭借共享骨干网络节省计算资源、联合训练提升任务性能的优势,成为科研与工业界的研究热点。2D 感知领域的范式创新,为自动驾驶场景中更复杂的多任务感知提供了重要启发。
2.2 鸟瞰图语义分割
自动驾驶中的环境地图重建任务,可通过 BEV 语义分割实现(如可行驶区域、车道线、停车区等目标的分割)。当前主流的 BEV 语义分割方法采用统一的模块化框架:图像视角编码器(提取图像特征)→视角转换器(将图像特征转换为 BEV 特征)→BEV 编码器(优化 BEV 特征)→分割头(像素级分类)。
该框架在 BEV 语义分割任务中的成功,验证了 BEV 视角在捕捉空间关系、尺度信息上的优势,也为本文将其扩展到 3D 目标检测任务提供了理论基础 ------ 期望 BEV 空间的特征能更好地建模 3D 目标的尺度、姿态和速度等关键信息,同时为多任务学习(3D 检测 + BEV 分割)提供统一范式。
2.3 基于视觉的 3D 目标检测
早期 3D 目标检测研究主要依赖 KITTI 数据集,但单视角、小样本的局限性限制了复杂任务的发展。近年来,nuScenes、Waymo Open Dataset 等大规模多相机数据集的发布,推动了多相机 3D 目标检测范式的革新,主流方法可分为三类:
- 图像视角主导方法:如 FCOS3D 将 3D 检测转化为 2D 检测任务,利用图像外观与目标属性的空间相关性实现高效推理,但在平移、速度和姿态估计上表现较差;PGD 通过优化深度预测提升精度,但代价是计算量和 latency 增加。
- Transformer-based 方法:如 DETR3D 采用注意力机制进行 3D 检测,计算量仅为 FCOS3D 的一半,但复杂的计算流程导致推理速度未能提升。
- BEV 视角探索方法:部分先驱工作(如 Categorical Depth Distribution Network)尝试将 BEV 视角应用于单目 3D 检测,但依赖激光雷达(LiDAR)进行深度监督,实用性受限;并发工作 DD3D 虽不依赖 LiDAR,但未针对 BEV 空间的特性设计专门的优化策略。
现有方法在精度与效率的平衡上存在明显瓶颈,而 BEVDet 通过定制化数据增强和 NMS 优化,首次实现了不依赖 LiDAR 的高性能多相机 BEV 3D 检测,填补了该领域的空白。
三、BEVDet 核心技术详解
3.1 网络结构设计
BEVDet 采用模块化设计,整体框架与 BEV 语义分割方法一脉相承,但针对 3D 目标检测任务优化了各组件的参数和交互逻辑。其结构由四大核心模块组成,如图 1 所示:

3.1.1 图像视角编码器(Image-view Encoder)
负责将多相机输入图像编码为高维特征,由骨干网络(Backbone) 和颈部网络(Neck) 组成:
- 骨干网络:默认采用 ResNet 和 SwinTransformer(如 BEVDet-Tiny 用 SwinTransformer-Tiny,BEVDet-R50 用 ResNet-50),也支持 DenseNet、HRNet 等替代结构,用于提取图像的高级语义特征。
- 颈部网络:采用 FPN(Feature Pyramid Network)或 FPN-LSS(Lift-Splat-Shoot 中提出的 FPN 变体),其中 FPN-LSS 通过将 1/32 分辨率的特征上采样至 1/16,并与骨干网络生成的 1/16 分辨率特征拼接,实现多尺度特征融合。
以 BEVDet-Tiny 为例,输入图像经过编码器后,输出特征维度为 N×768×(H/16)×(W/16)(N 为相机数量,H、W 为输入图像高度和宽度)。
3.1.2 视角转换器(View Transformer)
核心功能是将图像视角特征转换为 BEV 空间特征,采用 Lift-Splat-Shoot 提出的实现方案,具体流程如下:
- 深度分类:对图像特征进行密集深度预测,输出深度分类图(N×D×(H/16)×(W/16),D 为深度区间数量);
- 3D 点云渲染:结合相机内参矩阵,将图像像素映射到 3D 空间(公式 1 ),并利用深度分类分数和图像特征渲染预定义点云;
- BEV 特征生成:沿垂直方向(Z 轴)对 3D 点云特征进行池化操作,得到 BEV 特征图。
BEVDet 扩展了默认的深度预测范围至 [1, 60] 米,深度区间间隔为 1.25×r(r 为 BEV 输出分辨率),确保对不同距离目标的覆盖。
3.1.3 BEV 编码器(BEV Encoder)
对视角转换器输出的 BEV 特征进行进一步优化,结构与图像视角编码器类似(骨干网络 + 颈部网络):
- 骨干网络:采用 ResNet 的经典残差块,如 BEVDet-Tiny 使用 2×Basic-128 结构(2 个残差块,输出通道数 128);
- 颈部网络:同样采用 FPN-LSS,实现 BEV 空间多尺度特征融合,增强对不同尺度目标的感知能力。
BEV 编码器的关键优势在于,其直接在 BEV 空间建模,而 3D 目标的尺度、姿态、速度等属性在 BEV 空间中定义更直观,因此能更精准地捕捉这些关键信息。
3.1.4 任务特定头(Task-specific Head)
基于优化后的 BEV 特征进行 3D 目标检测,直接复用 CenterPoint 第一阶段的检测头,无需修改即可输出目标的位置、尺度、姿态、速度等预测结果,便于与 LiDAR-based 方法(如 PointPillar、VoxelNet)进行公平对比。
各模块的详细参数配置如表 1 所示,不同版本(Tiny/Base/R50/R101)通过调整骨干网络类型、通道数、输入分辨率等参数,实现精度与效率的不同权衡。

注:"-number" 表示模块通道数;Lift-Splat-Shoot-64-0.4×0.4 表示输出通道数 64,BEV 分辨率 0.4 米 / 像素。
3.2 定制化数据增强策略
BEVDet 在训练过程中面临一个关键问题:BEV 空间的过拟合。其根源在于:
- 视角转换器以像素级方式将图像特征映射到 BEV 空间,导致图像视角的数据增强无法对 BEV 编码器和检测头产生正则化效果;
- 每个训练样本包含多个相机图像(如 nuScenes 数据集每个样本含 6 张图),BEV 空间的有效训练数据量远少于图像视角。
为解决该问题,BEVDet 提出双空间数据增强策略,分别在图像视角和 BEV 视角进行增强,确保模型的泛化能力。
3.2.1 图像视角数据增强(IDA)
由于视角转换器的像素级映射特性,图像视角的增强操作(如翻转、裁剪、旋转)可通过逆变换矩阵保持 BEV 空间的特征与目标空间一致性(公式 2)。具体来说,若图像像素经过变换矩阵 A 处理(),则在 3D 映射时引入逆矩阵
,可确保 3D 坐标不变(
)。
公式 1:3D 空间坐标映射( 为 3×3 相机内参矩阵,
为像素深度)

公式 2:增强后的空间一致性保持

IDA 的主要作用是增强图像特征的多样性,但实验表明,仅当 BEV 编码器不存在时,IDA 才能带来正向收益;当 BEV 编码器存在时,IDA 需与 BEV 视角增强配合才能发挥作用。
3.2.2 BEV 视角数据增强(BDA)
针对 BEV 空间数据量不足的问题,借鉴 LiDAR-based 方法的增强策略,对 BEV 特征和 3D 检测目标同时进行翻转、缩放、旋转操作,确保增强后的数据仍保持空间一致性。具体参数:
- 旋转范围:[-22.5°, 22.5°]
- 缩放范围:[0.95, 1.05]
- 翻转:随机水平 / 垂直翻转
BDA 是解决 BEV 空间过拟合的核心,实验证明其能显著提升模型的峰值性能和训练稳定性。
3.3 Scale-NMS:适配 BEV 空间的非极大值抑制
经典 NMS 算法基于交并比(IOU)筛选预测框,适用于图像视角(所有类别目标的空间分布相似),但在 BEV 空间中存在明显缺陷:
- BEV 空间中不同类别目标的占据面积差异极大(如行人、交通锥的面积远小于车辆);
- 小目标的预测框可能与真实框无交叠(IOU=0),导致经典 NMS 无法区分真阳性和假阳性预测,从而保留冗余结果。
为解决该问题,BEVDet 提出Scale-NMS,核心思想是:在执行 NMS 前,根据目标类别对预测框进行尺度缩放,使不同类别目标的 IOU 分布与经典 NMS 的假设匹配。具体流程如图 2 所示:

- 对于行人、交通锥等小目标:放大预测框,使冗余预测与真实框产生交叠(IOU>0),便于 NMS 筛选;
- 对于车辆、巴士等大目标:适当缩放预测框,保持 IOU 分布合理性;
- 屏障(barrier)类别:因尺寸差异大,不进行缩放。
缩放因子通过在验证集上进行超参数搜索确定,确保对每个类别最优。
四、实验验证与分析
4.1 实验设置
4.1.1 数据集与评价指标
- 数据集:采用 nuScenes 数据集,包含 1000 个场景(700 训练 / 150 验证 / 150 测试),6 个相机视角,1.4M 个 3D 标注框(10 个类别);感兴趣区域(ROI)为地面 51.2 米范围内,默认分辨率 0.8 米 / 像素。
- 评价指标:采用 nuScenes 官方指标,包括平均精度(mAP)、NuScenes 检测分数(NDS,综合翻译误差 ATE、尺度误差 ASE、姿态误差 AOE 等指标),以及各分项误差(ATE/ASE/AOE/AVE/AAE)。
4.1.2 训练与推理配置
- 训练参数:AdamW 优化器,梯度裁剪;ResNet 骨干网络采用阶梯学习率(epoch 17、20 时衰减 0.1),SwinTransformer 采用循环学习率(前 40% 线性上升至 1e-3,后 60% 线性下降至 0);总 epoch=20,批量大小 = 64(8 张 RTX 3090 GPU)。
- 数据处理:训练时图像视角采用随机翻转、缩放(s∈[W_in/1600-0.06, W_in/1600+0.11])、旋转(r∈[-5.4°,5.4°])和裁剪;BEV 视角采用翻转、旋转、缩放增强;测试时图像缩放因子 s=W_in/1600+0.04,固定区域裁剪。
- 推理速度:基于 MMDetection3D 框架,所有速度和计算量测试均关闭数据增强;单目方法(如 FCOS3D)的速度需除以 6(相机数量)以公平对比。
4.2 基准测试结果
4.2.1 nuScenes 验证集结果
BEVDet 的两个版本(Tiny/Base)与主流方法的对比如表 2 所示,核心优势体现在:
- 效率领先:BEVDet-Tiny 输入分辨率仅 704×256(为 FCOS3D 的 1/8),计算量 215.3 GFLOPs(FCOS3D 的 11%),推理速度 15.6 FPS(FCOS3D 的 9.2 倍),但 mAP(31.2%)和 NDS(39.2%)均超越 FCOS3D(29.5% mAP、37.2% NDS)和 DETR3D(30.3% mAP、37.4% NDS)。
- 精度顶尖:BEVDet-Base 输入分辨率 1600×640,mAP 达 39.3%,NDS 达 47.2%,大幅超越 PGD(33.5% mAP、40.9% NDS),即使计算量较高(2962.6 GFLOPs),推理速度仍达 1.9 FPS(与 DETR3D 相当)。
- 分项误差优异:BEVDet 在 ATE(翻译误差)、AOE(姿态误差)、AVE(速度误差)上表现突出,验证了 BEV 视角对空间属性建模的优势;但 AAE(属性误差)略逊于图像视角方法(如 FCOS3D),推测因属性判断依赖图像外观特征。

注:†表示基于 FCOS3D 骨干网络初始化;§ 表示测试时增强;# 表示模型集成。
4.2.2 nuScenes 测试集结果
BEVDet-Base 在训练集 + 验证集上训练,结合测试时增强(TTA),在测试集上取得 42.2% mAP 和 48.2% NDS,排名 nuScenes 视觉 3D 检测榜单第一,超越 PGD(38.6% mAP、44.8% NDS)+3.6% mAP 和 + 3.4% NDS,与依赖 LiDAR 预训练的 DD3D(41.8% mAP)、DETR3D†(38.6% mAP)性能相当,甚至接近经典 LiDAR-based 方法 PointPillars(30.5% mAP、45.3% NDS),验证了纯视觉 BEV 3D 检测的巨大潜力。

注:†表示在 DDAD 数据集上预训练。
4.3 消融实验分析
为验证各核心组件的有效性,作者进行了全面的消融实验,所有实验基于 BEVDet-Tiny 配置。
4.3.1 数据增强策略的影响
实验设计了 8 种配置(A-H),分别组合图像视角增强(IDA)、BEV 视角增强(BDA)和 BEV 编码器(BE),结果如表 4 所示:
- 基线(A):无任何增强 + BE 存在,模型在 epoch 4 就达到 23.0% mAP 的峰值,随后过拟合严重,最终 epoch 20 仅 17.4% mAP,验证了 BEV 空间过拟合的严重性。
- BDA 的关键作用:仅添加 BDA(配置 C),峰值 mAP 提升至 26.2%,最终 mAP 23.6%,过拟合缓解(下降 2.6%);而仅添加 IDA(配置 B),峰值 mAP 反而降至 20.5%,说明单独 IDA 对 BEV 空间训练有害。
- 双增强协同作用:IDA+BDA(配置 D)实现最优性能,峰值 mAP 31.6%,最终 mAP 31.2%,过拟合仅下降 0.4%,证明双空间增强能充分抑制过拟合。
- BEV 编码器的贡献:对比配置 D(有 BE)和 H(无 BE),mAP 提升 1.7%,说明 BEV 编码器对优化 BEV 特征、提升检测精度至关重要;且当 BE 存在时,IDA 仅在 BDA 配合下才有效(配置 B vs D)。

4.3.2 Scale-NMS 的有效性
对比经典 NMS、Circular-NMS(CenterPoint 提出)和 Scale-NMS 的性能,结果如表 5 所示:
- Scale-NMS 对小目标提升显著:行人 AP 提升 4.8%,交通锥 AP 提升 7.5%,解决了小目标预测框无交叠导致的 NMS 失效问题;
- 大目标也受益:巴士(+0.8% AP)、卡车(+0.3% AP)、拖车(+0.7% AP)等类别性能略有提升;
- 整体性能:mAP 从 29.5% 提升至 31.2%,增幅 1.7%,验证了 Scale-NMS 对 BEV 空间检测的适配性。

4.3.3 分辨率的影响
实验研究了输入图像分辨率和 BEV 特征分辨率对性能的影响,结果如表 6 所示:
- 输入图像分辨率:分辨率越高,性能提升越明显。例如,1408×512(配置 E)比 704×256(配置 C)mAP 提升 4.5%,且 ATE、AOE 等分项误差持续优化;同时,输入分辨率提升对计算量的增加影响有限(因 BEV 编码器和检测头的计算量固定)。
- BEV 特征分辨率:BEV 分辨率越高(voxel 尺寸越小),精度越好。例如,0.4 米 / 像素(配置 C)比 0.8 米 / 像素(配置 A)mAP 提升 0.3%,ATE 和 AOE 显著降低,但计算量从 215.3 GFLOPs 增至 438.4 GFLOPs,推理速度从 15.6 FPS 降至 10.0 FPS,需在精度与效率间权衡。

4.3.4 图像视角编码器骨干网络的影响
对比 ResNet-50、ResNet-101 和 SwinTransformer-Tiny 三种骨干网络(参数量相当),结果如表 7 所示:
- SwinTransformer-Tiny 表现最优:在 704×256 分辨率下,mAP 达 31.2%,NDS 达 39.2%,比 ResNet-50(29.8% mAP、37.9% NDS)提升 1.4% mAP 和 1.3% NDS,且在翻译误差(ATE)和姿态误差(AOE)上更优;
- ResNet-101 增益有限:在小分辨率(704×256)下,仅比 ResNet-50 提升 0.4% mAP,但在大分辨率(1056×384)下,mAP 提升 1.2%,推测大 receptive field 更适配高分辨率输入;
- 速度权衡:ResNet-50 速度最快(16.7 FPS),SwinTransformer-Tiny 次之(15.6 FPS),ResNet-101 最慢(14.3 FPS),需根据精度需求选择骨干网络。

4.3.5 推理加速优化
视角转换器中的 "累积和" 操作(用于合并同一 voxel 内的特征)推理 latency 与点云数量成正比,BEVDet 通过引入辅助索引优化该操作:
- 初始化阶段计算每个 voxel 的辅助索引(记录该 voxel 被访问的次数);
- 推理时,根据 voxel 索引和辅助索引将点云特征分配到 2D 矩阵,沿辅助轴直接求和,替代累积和操作。

该优化使 BEVDet-Tiny 的推理 latency 从 137 毫秒降至 64 毫秒(提速 53.3%),且通过限制辅助索引最大值为 300(丢弃超出点),对精度的影响可忽略不计。
五、结论与未来工作
BEVDet 首次提出了基于 BEV 视角的多相机 3D 目标检测范式,通过模块化设计复用现有组件,结合双空间数据增强策略和 Scale-NMS 算法,实现了精度与效率的突破。在 nuScenes 数据集上,BEVDet 不仅刷新了纯视觉 3D 检测的性能纪录,还验证了 BEV 视角在建模目标平移、尺度、姿态和速度上的天然优势,为自动驾驶多任务感知(3D 检测 + BEV 分割)提供了统一框架。
未来工作方向
- 提升属性预测精度:当前 BEVDet 在目标属性判断上略逊于图像视角方法,未来将探索图像特征与 BEV 特征的融合方案,兼顾空间属性和外观特征;
- 多任务学习扩展:基于 BEVDet 的统一框架,将 3D 目标检测与 BEV 语义分割、目标跟踪等任务结合,进一步提升感知系统的集成度和效率;
- 模型轻量化:在保持精度的前提下,优化网络结构和参数,降低计算量和 latency,适配边缘计算设备。
BEVDet 的开源代码(https://github.com/HuangJunJie2017/BEVDet)为后续研究提供了重要参考,有望推动 BEV 视角成为自动驾驶视觉感知的主流范式。