论文解读--RCBEVDet++:Toward High-accuracy Radar-Camera Fusion 3D Perception Network

文章核心观点

为解决自动驾驶中雷达-相机多模态感知的模态差异与空间错位问题,本文提出RCBEVDet及升级版本RCBEVDet++。RCBEVDet基于相机3D目标检测模型,新增雷达特征提取器RadarBEVNet和跨注意力多层融合模块(CAMF):RadarBEVNet通过双流雷达骨干(点基与Transformer基分支)及RCS感知BEV编码器,将稀疏雷达点编码为密集BEV特征;CAMF利用可变形注意力动态对齐雷达与相机BEV特征,并通过通道-空间融合层增强特征聚合。RCBEVDet++进一步升级CAMF以支持稀疏融合,适配基于查询的多视图相机感知模型,扩展至3D目标检测、BEV语义分割、3D多目标跟踪等任务。在nuScenes数据集上,RCBEVDet提升现有相机模型性能,RCBEVDet++则在三任务上均达SOTA,尤其以ViT-L为图像骨干时,3D目标检测实现72.73 NDS和67.34 mAP(无测试时增强或模型集成),验证了其高效性与泛化性。

核心内容

本文围绕自动驾驶中雷达 - 相机融合的3D感知展开,提出了RCBEVDet和RCBEVDet++框架,核心内容如下:

1 自动驾驶感知与传感器融合

感知任务:自动驾驶需全面感知环境,3D目标检测、BEV语义分割和3D多目标跟踪是关键任务。相机和雷达融合可提升感知性能,但存在模态差异挑战。

传感器特点:LiDAR提供详细几何信息但成本高;相机捕捉高分辨率语义细节;毫米波雷达在距离和速度估计上有优势且适应多样天气,4D毫米波雷达技术逐渐克服其稀疏点局限。

2 相关工作

2.1 基于相机的3D感知

几何方法:利用深度预测网络估计图像深度分布,将2D图像特征转换为3D相机视锥体特征,再通过体素池化等操作构建体素或BEV空间特征,如Lift - Splat - Shoot、FIERY、BEVDet、BEVDepth、BEVDet4D、SOLOFusion等。

基于Transformer的方法:利用注意力机制将预定义查询投影到多视图图像平面,用多视图图像特征更新查询特征,如DETR3D、CVT、BEVformer、PETR、PETRv2、Sparse4D、Sparse4Dv2、StreamPETR、SparseBEV等。

2.2 雷达 - 相机3D感知

毫米波雷达常作为辅助模态与多视图相机结合,现有方法如RadarNet、CenterFusion、MVFusion、Simple - BEV、CRAFT、RADIANT、CRN、RCFusion、BEVGuide、BEVCar等,主要采用BEVFusion管道将多视图图像和雷达特征投影到BEV,但存在空间不对齐和未充分考虑雷达特性问题。

3 RCBEVDet框架

总体流程:多视图图像经图像编码器提取特征并转换为图像BEV特征,雷达点云由RadarBEVNet编码为雷达BEV特征,两者通过Cross - Attention Multi - layer Fusion模块融合,最终用于3D目标检测。

3.1 RadarBEVNet

专为雷达BEV特征提取设计,采用双流雷达骨干网络将稀疏雷达点编码为局部点基和全局Transformer基表示,通过注入和提取模块融合,再经RCS - aware BEV编码器利用RCS作为物体大小先验,将单点特征散射到BEV空间多个像素,解决BEV特征图稀疏问题。

3.2 Cross - Attention Multi - layer Fusion模块

多模态特征对齐:采用可变形交叉注意力机制动态对齐雷达和相机BEV特征,解决雷达特征与相机BEV特征的不对齐问题,同时降低计算复杂度。

通道和空间融合:对齐后通过通道和空间融合层聚合多模态BEV特征,先拼接特征,再通过CBR块进行融合。

4 RCBEVDet++框架

4.1 稀疏融合与CAMF

对CAMF模块扩展,采用稀疏融合将密集雷达BEV特征与图像稀疏特征融合,通过项目和采样过程关联特征,利用位置编码网络转换位置信息,采用可变形交叉注意力和简单交叉注意力对齐多模态特征,最后用简单线性层融合。

4.2 下游3D感知任务

3D目标检测:采用基于查询的Transformer解码器,在每个解码器层应用稀疏融合与CAMF模块预测3D边界框。

3D多目标跟踪:采用跟踪 - 检测框架,基于速度的贪婪距离匹配,通过预测速度补偿计算多帧中物体中心距离,以分配相同ID。

BEV语义分割:将多模态特征转换为密集BEV特征,遵循CVT解码器架构解码为不同语义表示地图,使用多个头处理不同分割任务,采用focal loss和sigmoid层作为训练监督。

5 实验

实验设置:使用nuScenes数据集,3D目标检测指标包括mAP、NDS等;BEV语义分割使用mIoU;3D多目标跟踪使用AMOTA和AMOTP。模型采用两阶段训练,使用AdamW优化器,进行多种数据增强。

对比实验:与当前最先进方法在3D目标检测、BEV语义分割和3D多目标跟踪任务上对比。RCBEVDet在3D目标检测中超越先前雷达 - 相机多模态方法,RCBEVDet++进一步提升性能,在BEV语义分割和3D多目标跟踪任务中也取得优异成绩。

消融实验:对RCBEVDet和RCBEVDet++的主要组件进行消融实验,验证RadarBEVNet、CAMF、稀疏融合等组件有效性,分析各组件对性能影响。

任务权衡分析:在BEV语义分割中调整车辆、可行驶区域和车道分割任务的损失权重,找到最佳权衡点。

鲁棒性分析:通过随机丢弃传感器输入和扰动雷达坐标分析RCBEVDet在传感器故障和模态对齐方面的鲁棒性,结果表明其鲁棒性优于CRN。

模型泛化性分析:在不同骨干架构和3D检测器架构上实验,证明RCBEVDet可提升不同架构性能,具有良好泛化能力。

6 结论

RCBEVDet提升基于相机的3D目标检测器性能且对传感器故障有鲁棒性;RCBEVDet++进一步扩展功能,支持基于查询的模型和更多感知任务,在nuScenes数据集上取得新的最先进结果。

相关推荐
陶甜也11 小时前
使用Blender进行现代建筑3D建模:前端开发者的跨界探索
前端·3d·blender
s090713612 小时前
紧凑型3D成像声纳实现路径
算法·3d·声呐·前视多波束
CG_MAGIC12 小时前
Blender3D 环境氛围感营造全攻略:从场景搭建到光影渲染
3d·3dsmax·blender·效果图·建模教程·渲云
幻云201020 小时前
WebGL与BabylonJS:前端3D开发入门
3d·webgl
普密斯科技20 小时前
从点测量到解决方案:光谱共焦技术如何集成于运动平台,实现3D轮廓扫描与透明物体测厚?
人工智能·算法·计算机视觉·3d·集成测试·测量
二狗哈21 小时前
Cesium快速入门24:Appearance编写着色器修改外观
3d·webgl·cesium·着色器·地图可视化
Yuner200021 小时前
WebGL与BabylonJS:前端3D开发学习指南
3d·webgl
Lunar*21 小时前
[开源] 纯前端实现楼盘采光模拟工具:从2D规划图到3D日照分析
前端·3d
gis分享者1 天前
学习threejs,生成复杂3D迷宫游戏
学习·游戏·3d·threejs·cannon·迷宫·cannon-es
Mangguo52082 天前
解锁复杂制造的自由: SLS 3D打印技术如何重塑工业生产的边界
3d·性能优化·制造