【BEV】“Simple-BEV: What Really Matters for Multi-Sensor BEV Perception?“ -- 文章解读

Simple-BEV论文概述

研究动机：BEV研究是否走偏
核心思想：重新做一次公平实验
模型结构
最关键：Lifting机制
控制变量实验
Radar分析
与SOTA对比
总结

研究动机：BEV研究是否走偏

近几年，BEV感知发展迅速，发展趋势非常明显：lifting方法越来越复杂。

复制代码

depth -> MLP -> attention -> deformable transformer

同时：backbone/分辨率/batch size/训练策略都在变化。所以到底是lifting方法变强了还是训练方案变强了？这就是本文所要讨论的。

核心思想：重新做一次公平实验

作者构建了一个统一框架，只改变一个变量，其他全部固定，下面是文章中分析的变量：

复制代码

1. backbone
2. 分辨率
3. batch size
4. augmentations
5. loss
6. 优化器

这样可以真正衡量lifting改进对模型性能的贡献。

模型结构

整体pipeline：

复制代码

 						多相机 RGB
 						    ↓
 						2D ResNet-101
 						    ↓
 						Lift 到 3D voxel
 						    ↓
 						压缩 Y 维 → BEV
 						    ↓
 						BEV ResNet-18
 						    ↓
 						Segmentation + offset + centerness

BEV空间设置：

100m*100m
分辨率200*200
垂直方向8层

voxel尺度：

0.5m*1.25m*0.5m

最关键：Lifting机制

parameter-free lifting

流程：

复制代码

a. 定义3d voxel坐标
b. 投影到每个相机
c. 在2d feature map上bilinear sample
d. 多相机取valid-weighted average

没有depth/MLP/attention/transforner。

与Lift-Splat区别

Lift-Splat：每个2d pixel沿ray向3d "splat"，对应下面的左图
Sample-BEV：每个3d voxel去2d "pull"，对应下面的右图

区别：

距离	splat	sampling
近距离	更好	略差
远距离	稀疏	更稳定

总体sampling略优。

控制变量实验

Lifting策略对比

方法	IOU
unweighted splat	43.1
depth splat	44.4
deformable attn	46.5
bilinear sampling	47.4
multi-scale attn	48.9

最差和最好的结果只相差4个点。

输入分辨率

从112*208增大到672*1200，IOU大幅增长。关键点：

低于448*800性能明显下降
最高分辨率反而下降（预训练mismatch）

最佳分辨率：672*1200。分辨率提升可以带来5-8个点提升。远大于lifting差异。

batch size

最震撼的实验结果：

batch	IOU
2	33
8	40
16	44
40	47+

随着batch增大，IOU提升了14个点，增大batch效果十分明显。

backbone

backbone	IOU
EfficientNet-B0	43.7
EfficientNet-B4	46.4
ResNet-50	46.6
ResNet-101	47.4

backbone影响3-4个点。

augmentation

增强	提升
random crop	+1.6
random ref camera	+0.6
camera dropout	反而下降

效果不大。

Radar分析

模态对比

模态	IOU
RGB	47.4
RGB+Radar	55.7
RGB+Lidar	60.8

多模态对IOU提升巨大：+8。

radar使用细节

使用meta-data：速度、置信度等，提升+0.7 IOU
不做官方filtering：官方过虑，降低2 IOU；过滤会误删真值
多帧radar：1 sweep -> 53.1，3 sweep -> 55.7；radar太稀疏，需要时间积累

与SOTA对比

方法	IOU
BEVFormer	44.4
Simple-BEV	47.4
Simple-BEV + Radar	55.7

Simple-BEV优势：

复制代码

1. 参数更少
2. 速度更快
3. 训练更稳定

总结

本文证明：训练规模 + 多模态信息 >> 复杂 lifting 设计。