【BEV】“Simple-BEV: What Really Matters for Multi-Sensor BEV Perception?“ -- 文章解读

Simple-BEV论文概述

研究动机:BEV研究是否走偏

  近几年,BEV感知发展迅速,发展趋势非常明显:lifting方法越来越复杂。

复制代码
depth -> MLP -> attention -> deformable transformer

  同时:backbone/分辨率/batch size/训练策略都在变化。所以到底是lifting方法变强了还是训练方案变强了?这就是本文所要讨论的。

核心思想:重新做一次公平实验

  作者构建了一个统一框架,只改变一个变量,其他全部固定,下面是文章中分析的变量:

复制代码
1. backbone
2. 分辨率
3. batch size
4. augmentations
5. loss
6. 优化器

这样可以真正衡量lifting改进对模型性能的贡献。

模型结构

  1. 整体pipeline:

    复制代码
     						多相机 RGB
     						    ↓
     						2D ResNet-101
     						    ↓
     						Lift 到 3D voxel
     						    ↓
     						压缩 Y 维 → BEV
     						    ↓
     						BEV ResNet-18
     						    ↓
     						Segmentation + offset + centerness
  2. BEV空间设置:

  • 100m*100m
  • 分辨率200*200
  • 垂直方向8层
  1. voxel尺度:
  • 0.5m*1.25m*0.5m

最关键:Lifting机制

  1. parameter-free lifting

流程:

复制代码
a. 定义3d voxel坐标
b. 投影到每个相机
c. 在2d feature map上bilinear sample
d. 多相机取valid-weighted average 

没有depth/MLP/attention/transforner。

  1. 与Lift-Splat区别
  • Lift-Splat:每个2d pixel沿ray向3d "splat",对应下面的左图
  • Sample-BEV:每个3d voxel去2d "pull", 对应下面的右图

区别:

距离 splat sampling
近距离 更好 略差
远距离 稀疏 更稳定

总体sampling略优。

控制变量实验

  1. Lifting策略对比
方法 IOU
unweighted splat 43.1
depth splat 44.4
deformable attn 46.5
bilinear sampling 47.4
multi-scale attn 48.9

最差和最好的结果只相差4个点。

  1. 输入分辨率

从112*208增大到672*1200,IOU大幅增长。关键点:

  • 低于448*800性能明显下降
  • 最高分辨率反而下降(预训练mismatch)

最佳分辨率:672*1200。分辨率提升可以带来5-8个点提升。远大于lifting差异。

  1. batch size

最震撼的实验结果:

batch IOU
2 33
8 40
16 44
40 47+

随着batch增大,IOU提升了14个点,增大batch效果十分明显。

  1. backbone
backbone IOU
EfficientNet-B0 43.7
EfficientNet-B4 46.4
ResNet-50 46.6
ResNet-101 47.4

backbone影响3-4个点。

  1. augmentation
增强 提升
random crop +1.6
random ref camera +0.6
camera dropout 反而下降

效果不大。

Radar分析

  1. 模态对比
模态 IOU
RGB 47.4
RGB+Radar 55.7
RGB+Lidar 60.8

多模态对IOU提升巨大:+8。

  1. radar使用细节
  • 使用meta-data:速度、置信度等,提升+0.7 IOU
  • 不做官方filtering:官方过虑,降低2 IOU;过滤会误删真值
  • 多帧radar:1 sweep -> 53.1,3 sweep -> 55.7;radar太稀疏,需要时间积累

与SOTA对比

方法 IOU
BEVFormer 44.4
Simple-BEV 47.4
Simple-BEV + Radar 55.7

Simple-BEV优势:

复制代码
1. 参数更少
2. 速度更快
3. 训练更稳定

总结

本文证明:训练规模 + 多模态信息 >> 复杂 lifting 设计

相关推荐
我没胡说八道4 小时前
高校论文AI检测优化工具对比研究与实测分析(2026)
人工智能·深度学习·机器学习·计算机视觉·aigc·论文
探物 AI6 小时前
把 MambaOut 塞进 YOLOv11:会有什么样的反应
python·yolo·计算机视觉
我最爱吃鱼香茄子13 小时前
终极方案:JetBrains IDE永久解放C盘空间
计算机视觉·性能优化·电脑·笔记本电脑·intellij-idea·程序员创富·webstorm
玖釉-14 小时前
Vulkan 离屏渲染详解:从 Framebuffer 到后处理、阴影贴图与 Render Texture
c++·windows·计算机视觉·图形渲染
生成论实验室14 小时前
判断力与六十四卦:AI的第三块基石
人工智能·语言模型·机器人·自动驾驶·安全架构
路人甲32615 小时前
SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
人工智能·深度学习·计算机视觉·机器人·具身智能
armwind15 小时前
openISP学习8-GC — Gamma Correction(Gamma 校正)
图像处理·计算机视觉
大江东去浪淘尽千古风流人物16 小时前
【VGGT-Ω】前馈式3D重建的规模化之路:Register Attention、自监督训练与10B参数Scaling Law深度解析
深度学习·计算机视觉·transformer·slam·vio·3d重建
断眉的派大星16 小时前
YOLO26 完整学习笔记:从 Anchor-Free、TAL、STAL 到端到端无 NMS 部署
人工智能·笔记·学习·yolo·目标检测·计算机视觉·目标跟踪
生成论实验室16 小时前
降U动力学:用一套原理统一解释21项AI技术
人工智能·语言模型·机器人·自动驾驶·安全架构