论文解读--BEV-radar：: bidirectional radar-camera fusion for 3D object detection

一、技术背景与问题定义

1. 自动驾驶感知的模态特性

相机：能提供密集语义信息，但易受雨、雪、雾、夜间低光照、眩光等恶劣环境影响，且单目方案难以精准估计深度和物体速度，远距离检测精度下降明显。
毫米波雷达：具备不受光照/天气干扰、可直接测量距离与径向速度、探测距离远的优势，但存在点云稀疏、无高度信息、噪声多、易产生多径效应、语义信息缺失的缺陷。
二者信息高度互补，融合是低成本自动驾驶感知的重要技术方向。

2. 现有雷达-相机融合的痛点

前视图投影融合：雷达点投影到图像平面时因无高度信息存在对齐偏差，且依赖相机第一阶段的检测提案，若相机漏检目标，融合阶段也无法识别，性能上限受限于相机效果。
特征融合不充分：传统简单拼接、单向注意力融合无法有效适配雷达和相机特征的模态差异，难以充分挖掘两类特征的互补价值。

3. BEV（鸟瞰图）感知的技术优势

BEV视角可以统一不同传感器的坐标空间，避免前视图的几何畸变，更贴合自动驾驶下游路径规划、决策任务的需求，是多传感器融合的天然载体。

二、 BEV-radar核心技术方案

论文提出端到端的雷达-相机BEV融合框架，核心创新点包括三部分：

1. 双模态BEV特征统一表征

相机侧：基于BEVDet基线，提取多视角图像特征后预测深度分布，结合外参矩阵将前视图特征变换为统一的BEV特征图。
雷达侧：累计6帧雷达点缓解稀疏性，采用Pillar（柱体）编码方式，无需高度维度即可将稀疏雷达点转换为紧凑的BEV雷达特征图，适配雷达无高度信息的特性。

2. 双向空间融合模块（BSF, Bidirectional Spatial Fusion）

针对传统跨模态融合的不足，设计双向交互的融合结构：

双向交叉注意力：以相机BEV特征为查询、雷达BEV特征为键值做一次交叉注意力，再以雷达BEV特征为查询、相机BEV特征为键值做第二次交叉注意力，实现两类特征的双向信息交互，解决单向融合的信息损失问题；采用可变形注意力降低计算开销，适配BEV特征的空间特性。
卷积局部增强：注意力交互后加入卷积层，提取特征的局部空间关联，强化目标的空间位置约束，弥补纯注意力结构对空间信息建模的不足。
多层堆叠：通过堆叠多个BSF模块，逐步实现两类特征的域对齐与深度融合。

3. 检测头与损失设计

融合后的BEV特征输入基于Transformer的检测头，采用DETR的二分匹配范式（无需NMS后处理）预测3D框；总损失由分类损失、回归损失、IoU损失加权求和构成，适配3D检测任务需求。

BEV-radar通过在鸟瞰图（BEV）视角下对齐摄像头和雷达特征，简化了三维目标检测，并采用双向查询式Transformer方法实现互补信息交换，从而提升融合效果。

图2. 框架的整体架构。我们的模型基于独立的骨干网络分别提取图像BEV特征和雷达BEV特征。我们的BSF（双向空间融合）模块由多个依次连接的模块组成：首先，通过一个共享的双向交叉注意力机制实现两者之间的信息交互形式。空间对齐后，用于定位雷达和相机的鸟瞰图特征。所有模块处理完成后，两个输出将被送入一个反卷积模块以降低通道数。

三、实验验证与结论

所有实验在自动驾驶公开数据集nuScenes上开展，验证了方案的有效性：

1. 主性能结果

在nuScenes测试集上达到48.2 mAP、57.6 NDS，相比纯相机基线提升17% mAP，相比其他主流雷达-相机融合方案（如CRAFT）提升7% mAP、5% NDS，推理速度达10.2 FPS，满足实时性需求。
速度预测精度大幅提升：相比纯相机模型速度误差降低53%，相比其他雷达融合方案速度误差降低14%-24%，充分发挥了雷达的速度测量优势。

2. 细粒度性能分析

类别适配性：对金属材质的大型动态目标（汽车、卡车、公交）提升最显著（20%左右mAP增益），对非金属小目标（行人、自行车）也有10%-20%的提升；对长尾类别、静态目标的增益相对较低，受雷达RCS（雷达散射截面）特性和数据集分布影响。
距离鲁棒性：远距离检测性能提升明显，40米距离的汽车AP仍有20%的增益，缓解了相机远距离分辨率不足的问题。
恶劣环境鲁棒性：夜间场景mAP相比纯相机提升10%，雨天场景提升12%，验证了雷达对相机环境短板的补充作用。

3. 消融实验验证

双向融合比简单特征拼接提升4.2 mAP，加入卷积空间增强的BSF模块比基础双向融合进一步提升1.3 mAP，3个BSF堆叠达到最优性能，验证了核心模块的有效性。

表1.在nuScenes测试集上的最新方法对比。"L"、"C"和"R"分别表示激光雷达、相机和雷达。表示测试时增强。特别地，BEVDet-Tiny 是我们仅使用相机的BEV基线模型，CenterNet 用于 CenterFusion 和 CRAFT。表示与基础版本相比，采用 SECOND $29$ 网络作为解码器。粗体数字表示对应指标的最佳值。

四、方案价值与局限

1. 技术价值

摆脱了传统融合方法对相机第一阶段检测结果的依赖，可移植到其他BEV感知框架中，适配多传感器扩展。
实现了低成本雷达+相机方案的性能突破，在环境鲁棒性、速度预测、远距离检测上的优势贴合量产自动驾驶的实际需求。

2. 局限

雷达本身无法独立提供语义信息，相机仍是融合效果的下限，当相机完全失效时融合方案也无法正常工作；稀疏雷达点对小目标、非金属目标的支撑能力仍有不足。

3. 应用方向

可为中低阶量产自动驾驶、恶劣场景下的感知冗余设计提供技术参考，也为多模态BEV融合的结构设计提供了新的思路。

图4. 检测结果的定性分析。3D边界框预测结果分别投影到六个不同视角和BEV图像上。

不同类别的框用不同颜色标注，且未标注真实地面。在BEV可视化中，黄色表示预测框，蓝色表示真实框，而LiDAR点则以背景形式显示。