【BEV】“Simple-BEV: What Really Matters for Multi-Sensor BEV Perception?“ -- 文章解读

Simple-BEV论文概述

研究动机:BEV研究是否走偏

近几年,BEV感知发展迅速,发展趋势非常明显:lifting方法越来越复杂。

复制代码
depth -> MLP -> attention -> deformable transformer

同时:backbone/分辨率/batch size/训练策略都在变化。所以到底是lifting方法变强了还是训练方案变强了?这就是本文所要讨论的。

核心思想:重新做一次公平实验

作者构建了一个统一框架,只改变一个变量,其他全部固定,下面是文章中分析的变量:

复制代码
1. backbone
2. 分辨率
3. batch size
4. augmentations
5. loss
6. 优化器

这样可以真正衡量lifting改进对模型性能的贡献。

模型结构

  1. 整体pipeline:

    复制代码
     						多相机 RGB
     						    ↓
     						2D ResNet-101
     						    ↓
     						Lift 到 3D voxel
     						    ↓
     						压缩 Y 维 → BEV
     						    ↓
     						BEV ResNet-18
     						    ↓
     						Segmentation + offset + centerness
  2. BEV空间设置:

  • 100m*100m
  • 分辨率200*200
  • 垂直方向8层
  1. voxel尺度:
  • 0.5m*1.25m*0.5m

最关键:Lifting机制

  1. parameter-free lifting

流程:

复制代码
a. 定义3d voxel坐标
b. 投影到每个相机
c. 在2d feature map上bilinear sample
d. 多相机取valid-weighted average 

没有depth/MLP/attention/transforner。

  1. 与Lift-Splat区别
  • Lift-Splat:每个2d pixel沿ray向3d "splat",对应下面的左图
  • Sample-BEV:每个3d voxel去2d "pull", 对应下面的右图

区别:

距离 splat sampling
近距离 更好 略差
远距离 稀疏 更稳定

总体sampling略优。

控制变量实验

  1. Lifting策略对比
方法 IOU
unweighted splat 43.1
depth splat 44.4
deformable attn 46.5
bilinear sampling 47.4
multi-scale attn 48.9

最差和最好的结果只相差4个点。

  1. 输入分辨率

从112*208增大到672*1200,IOU大幅增长。关键点:

  • 低于448*800性能明显下降
  • 最高分辨率反而下降(预训练mismatch)

最佳分辨率:672*1200。分辨率提升可以带来5-8个点提升。远大于lifting差异。

  1. batch size

最震撼的实验结果:

batch IOU
2 33
8 40
16 44
40 47+

随着batch增大,IOU提升了14个点,增大batch效果十分明显。

  1. backbone
backbone IOU
EfficientNet-B0 43.7
EfficientNet-B4 46.4
ResNet-50 46.6
ResNet-101 47.4

backbone影响3-4个点。

  1. augmentation
增强 提升
random crop +1.6
random ref camera +0.6
camera dropout 反而下降

效果不大。

Radar分析

  1. 模态对比
模态 IOU
RGB 47.4
RGB+Radar 55.7
RGB+Lidar 60.8

多模态对IOU提升巨大:+8。

  1. radar使用细节
  • 使用meta-data:速度、置信度等,提升+0.7 IOU
  • 不做官方filtering:官方过虑,降低2 IOU;过滤会误删真值
  • 多帧radar:1 sweep -> 53.1,3 sweep -> 55.7;radar太稀疏,需要时间积累

与SOTA对比

方法 IOU
BEVFormer 44.4
Simple-BEV 47.4
Simple-BEV + Radar 55.7

Simple-BEV优势:

复制代码
1. 参数更少
2. 速度更快
3. 训练更稳定

总结

本文证明:训练规模 + 多模态信息 >> 复杂 lifting 设计

相关推荐
CoovallyAIHub2 天前
语音AI Agent编排框架!Pipecat斩获10K+ Star,60+集成开箱即用,亚秒级对话延迟接近真人反应速度!
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
Moonshine:比 Whisper 快 100 倍的端侧语音识别神器,Star 6.6K!
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
速度暴涨10倍、成本暴降6倍!Mercury 2用扩散取代自回归,重新定义LLM推理速度
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
OpenClaw一脚踩碎传统CV?机器终于不再只是看世界
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
仅凭单目相机实现3D锥桶定位?UNet-RKNet破解自动驾驶锥桶检测难题
深度学习·算法·计算机视觉
地平线开发者5 天前
SparseDrive 模型导出与性能优化实战
算法·自动驾驶
地平线开发者5 天前
地平线 VP 接口工程实践(一):hbVPRoiResize 接口功能、使用约束与典型问题总结
算法·自动驾驶
CoovallyAIHub8 天前
仿生学突破:SILD模型如何让无人机在电力线迷宫中发现“隐形威胁”
深度学习·算法·计算机视觉
CoovallyAIHub8 天前
从春晚机器人到零样本革命:YOLO26-Pose姿态估计实战指南
深度学习·算法·计算机视觉
CoovallyAIHub8 天前
Le-DETR:省80%预训练数据,这个实时检测Transformer刷新SOTA|Georgia Tech & 北交大
深度学习·算法·计算机视觉