论文解读--RCBEVDet++:Toward High-accuracy Radar-Camera Fusion 3D Perception Network

文章核心观点

为解决自动驾驶中雷达-相机多模态感知的模态差异与空间错位问题,本文提出RCBEVDet及升级版本RCBEVDet++。RCBEVDet基于相机3D目标检测模型,新增雷达特征提取器RadarBEVNet和跨注意力多层融合模块(CAMF):RadarBEVNet通过双流雷达骨干(点基与Transformer基分支)及RCS感知BEV编码器,将稀疏雷达点编码为密集BEV特征;CAMF利用可变形注意力动态对齐雷达与相机BEV特征,并通过通道-空间融合层增强特征聚合。RCBEVDet++进一步升级CAMF以支持稀疏融合,适配基于查询的多视图相机感知模型,扩展至3D目标检测、BEV语义分割、3D多目标跟踪等任务。在nuScenes数据集上,RCBEVDet提升现有相机模型性能,RCBEVDet++则在三任务上均达SOTA,尤其以ViT-L为图像骨干时,3D目标检测实现72.73 NDS和67.34 mAP(无测试时增强或模型集成),验证了其高效性与泛化性。

核心内容

本文围绕自动驾驶中雷达 - 相机融合的3D感知展开,提出了RCBEVDet和RCBEVDet++框架,核心内容如下:

1 自动驾驶感知与传感器融合

感知任务:自动驾驶需全面感知环境,3D目标检测、BEV语义分割和3D多目标跟踪是关键任务。相机和雷达融合可提升感知性能,但存在模态差异挑战。

传感器特点:LiDAR提供详细几何信息但成本高;相机捕捉高分辨率语义细节;毫米波雷达在距离和速度估计上有优势且适应多样天气,4D毫米波雷达技术逐渐克服其稀疏点局限。

2 相关工作

2.1 基于相机的3D感知

几何方法:利用深度预测网络估计图像深度分布,将2D图像特征转换为3D相机视锥体特征,再通过体素池化等操作构建体素或BEV空间特征,如Lift - Splat - Shoot、FIERY、BEVDet、BEVDepth、BEVDet4D、SOLOFusion等。

基于Transformer的方法:利用注意力机制将预定义查询投影到多视图图像平面,用多视图图像特征更新查询特征,如DETR3D、CVT、BEVformer、PETR、PETRv2、Sparse4D、Sparse4Dv2、StreamPETR、SparseBEV等。

2.2 雷达 - 相机3D感知

毫米波雷达常作为辅助模态与多视图相机结合,现有方法如RadarNet、CenterFusion、MVFusion、Simple - BEV、CRAFT、RADIANT、CRN、RCFusion、BEVGuide、BEVCar等,主要采用BEVFusion管道将多视图图像和雷达特征投影到BEV,但存在空间不对齐和未充分考虑雷达特性问题。

3 RCBEVDet框架

总体流程:多视图图像经图像编码器提取特征并转换为图像BEV特征,雷达点云由RadarBEVNet编码为雷达BEV特征,两者通过Cross - Attention Multi - layer Fusion模块融合,最终用于3D目标检测。

3.1 RadarBEVNet

专为雷达BEV特征提取设计,采用双流雷达骨干网络将稀疏雷达点编码为局部点基和全局Transformer基表示,通过注入和提取模块融合,再经RCS - aware BEV编码器利用RCS作为物体大小先验,将单点特征散射到BEV空间多个像素,解决BEV特征图稀疏问题。

3.2 Cross - Attention Multi - layer Fusion模块

多模态特征对齐:采用可变形交叉注意力机制动态对齐雷达和相机BEV特征,解决雷达特征与相机BEV特征的不对齐问题,同时降低计算复杂度。

通道和空间融合:对齐后通过通道和空间融合层聚合多模态BEV特征,先拼接特征,再通过CBR块进行融合。

4 RCBEVDet++框架

4.1 稀疏融合与CAMF

对CAMF模块扩展,采用稀疏融合将密集雷达BEV特征与图像稀疏特征融合,通过项目和采样过程关联特征,利用位置编码网络转换位置信息,采用可变形交叉注意力和简单交叉注意力对齐多模态特征,最后用简单线性层融合。

4.2 下游3D感知任务

3D目标检测:采用基于查询的Transformer解码器,在每个解码器层应用稀疏融合与CAMF模块预测3D边界框。

3D多目标跟踪:采用跟踪 - 检测框架,基于速度的贪婪距离匹配,通过预测速度补偿计算多帧中物体中心距离,以分配相同ID。

BEV语义分割:将多模态特征转换为密集BEV特征,遵循CVT解码器架构解码为不同语义表示地图,使用多个头处理不同分割任务,采用focal loss和sigmoid层作为训练监督。

5 实验

实验设置:使用nuScenes数据集,3D目标检测指标包括mAP、NDS等;BEV语义分割使用mIoU;3D多目标跟踪使用AMOTA和AMOTP。模型采用两阶段训练,使用AdamW优化器,进行多种数据增强。

对比实验:与当前最先进方法在3D目标检测、BEV语义分割和3D多目标跟踪任务上对比。RCBEVDet在3D目标检测中超越先前雷达 - 相机多模态方法,RCBEVDet++进一步提升性能,在BEV语义分割和3D多目标跟踪任务中也取得优异成绩。

消融实验:对RCBEVDet和RCBEVDet++的主要组件进行消融实验,验证RadarBEVNet、CAMF、稀疏融合等组件有效性,分析各组件对性能影响。

任务权衡分析:在BEV语义分割中调整车辆、可行驶区域和车道分割任务的损失权重,找到最佳权衡点。

鲁棒性分析:通过随机丢弃传感器输入和扰动雷达坐标分析RCBEVDet在传感器故障和模态对齐方面的鲁棒性,结果表明其鲁棒性优于CRN。

模型泛化性分析:在不同骨干架构和3D检测器架构上实验,证明RCBEVDet可提升不同架构性能,具有良好泛化能力。

6 结论

RCBEVDet提升基于相机的3D目标检测器性能且对传感器故障有鲁棒性;RCBEVDet++进一步扩展功能,支持基于查询的模型和更多感知任务,在nuScenes数据集上取得新的最先进结果。

相关推荐
哈__18 小时前
CANN加速3D目标检测推理:点云处理与特征金字塔优化
目标检测·3d·目标跟踪
心疼你的一切1 天前
三维创世:CANN加速的实时3D内容生成
数据仓库·深度学习·3d·aigc·cann
3DVisionary1 天前
掌控发动机“心脏”精度:蓝光3D扫描在凸轮轴全尺寸检测中的应用
3d·图形渲染·汽车发动机·精密测量·蓝光3d扫描·凸轮轴检测·形位公差
coder攻城狮2 天前
VTK系列1:在屏幕绘制多边形
c++·3d
PHOSKEY2 天前
3D工业相机如何“读透”每一个字符?快速识别、高精度3D测量
数码相机·3d
XX風2 天前
7.2 harris 3d
3d
多恩Stone2 天前
【3D-AICG 系列-3】Trellis 2 的O-voxel (下) Material: Volumetric Surface Attributes
人工智能·3d·aigc
多恩Stone2 天前
【3D-AICG 系列-1】Trellis v1 和 Trellis v2 的区别和改进
人工智能·pytorch·python·算法·3d·aigc
三年模拟五年烧烤2 天前
easy-threesdk快速一键搭建threejs3d可视化场景
3d·threejs
top_designer2 天前
Materialize:手绘地表太假?“PBR 纹理炼金术” 5分钟生成次世代材质
游戏·3d·aigc·材质·设计师·游戏美术·pbr