【BEV】“Simple-BEV: What Really Matters for Multi-Sensor BEV Perception?“ -- 文章解读

Simple-BEV论文概述

研究动机:BEV研究是否走偏

近几年,BEV感知发展迅速,发展趋势非常明显:lifting方法越来越复杂。

复制代码
depth -> MLP -> attention -> deformable transformer

同时:backbone/分辨率/batch size/训练策略都在变化。所以到底是lifting方法变强了还是训练方案变强了?这就是本文所要讨论的。

核心思想:重新做一次公平实验

作者构建了一个统一框架,只改变一个变量,其他全部固定,下面是文章中分析的变量:

复制代码
1. backbone
2. 分辨率
3. batch size
4. augmentations
5. loss
6. 优化器

这样可以真正衡量lifting改进对模型性能的贡献。

模型结构

  1. 整体pipeline:

    复制代码
     						多相机 RGB
     						    ↓
     						2D ResNet-101
     						    ↓
     						Lift 到 3D voxel
     						    ↓
     						压缩 Y 维 → BEV
     						    ↓
     						BEV ResNet-18
     						    ↓
     						Segmentation + offset + centerness
  2. BEV空间设置:

  • 100m*100m
  • 分辨率200*200
  • 垂直方向8层
  1. voxel尺度:
  • 0.5m*1.25m*0.5m

最关键:Lifting机制

  1. parameter-free lifting

流程:

复制代码
a. 定义3d voxel坐标
b. 投影到每个相机
c. 在2d feature map上bilinear sample
d. 多相机取valid-weighted average 

没有depth/MLP/attention/transforner。

  1. 与Lift-Splat区别
  • Lift-Splat:每个2d pixel沿ray向3d "splat",对应下面的左图
  • Sample-BEV:每个3d voxel去2d "pull", 对应下面的右图

区别:

距离 splat sampling
近距离 更好 略差
远距离 稀疏 更稳定

总体sampling略优。

控制变量实验

  1. Lifting策略对比
方法 IOU
unweighted splat 43.1
depth splat 44.4
deformable attn 46.5
bilinear sampling 47.4
multi-scale attn 48.9

最差和最好的结果只相差4个点。

  1. 输入分辨率

从112*208增大到672*1200,IOU大幅增长。关键点:

  • 低于448*800性能明显下降
  • 最高分辨率反而下降(预训练mismatch)

最佳分辨率:672*1200。分辨率提升可以带来5-8个点提升。远大于lifting差异。

  1. batch size

最震撼的实验结果:

batch IOU
2 33
8 40
16 44
40 47+

随着batch增大,IOU提升了14个点,增大batch效果十分明显。

  1. backbone
backbone IOU
EfficientNet-B0 43.7
EfficientNet-B4 46.4
ResNet-50 46.6
ResNet-101 47.4

backbone影响3-4个点。

  1. augmentation
增强 提升
random crop +1.6
random ref camera +0.6
camera dropout 反而下降

效果不大。

Radar分析

  1. 模态对比
模态 IOU
RGB 47.4
RGB+Radar 55.7
RGB+Lidar 60.8

多模态对IOU提升巨大:+8。

  1. radar使用细节
  • 使用meta-data:速度、置信度等,提升+0.7 IOU
  • 不做官方filtering:官方过虑,降低2 IOU;过滤会误删真值
  • 多帧radar:1 sweep -> 53.1,3 sweep -> 55.7;radar太稀疏,需要时间积累

与SOTA对比

方法 IOU
BEVFormer 44.4
Simple-BEV 47.4
Simple-BEV + Radar 55.7

Simple-BEV优势:

复制代码
1. 参数更少
2. 速度更快
3. 训练更稳定

总结

本文证明:训练规模 + 多模态信息 >> 复杂 lifting 设计

相关推荐
byzy9 小时前
【论文笔记】RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception
论文阅读·深度学习·计算机视觉·自动驾驶
ergevv9 小时前
从阿克曼几何到 QP 求解器输入:自动驾驶横向 MPC 的完整数学链条(1)
自动驾驶·控制·mpc
美狐美颜sdk9 小时前
直播美颜效果差、卡顿严重如何解决?视频美颜SDK开发丨优化详解
人工智能·计算机视觉·直播美颜sdk·视频美颜sdk·美颜api·美狐美颜sdk·直播app开发
深度学习lover10 小时前
<数据集>yolo 葡萄叶片病害识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·葡萄叶片病害识别
ZPC821010 小时前
MoveGroup 规划轨迹 → 直接交给 MoveIt2 Servo 执行
人工智能·算法·计算机视觉·机器人
zero.cyx11 小时前
更换Live2D模型具体步骤
人工智能·计算机视觉·语音识别
QYR-分析11 小时前
重型自动驾驶地面车辆行业洞察:分类、格局与市场机遇
人工智能·机器学习·自动驾驶
思绪无限11 小时前
YOLOv5至YOLOv12升级:自动驾驶目标检测系统的设计与实现(完整代码+界面+数据集项目)
深度学习·yolo·目标检测·自动驾驶·yolov12·yolo全家桶
惊鸿一博11 小时前
自动驾驶与大模型相关VLA4AD
人工智能·机器学习·自动驾驶
Maxwell的猫11 小时前
激光雷达:给自动驾驶装上“火眼金睛”的终极传感器
自动驾驶·汽车·激光雷达·辅助驾驶