【BEV】“Simple-BEV: What Really Matters for Multi-Sensor BEV Perception?“ -- 文章解读

Simple-BEV论文概述

研究动机:BEV研究是否走偏

近几年,BEV感知发展迅速,发展趋势非常明显:lifting方法越来越复杂。

复制代码
depth -> MLP -> attention -> deformable transformer

同时:backbone/分辨率/batch size/训练策略都在变化。所以到底是lifting方法变强了还是训练方案变强了?这就是本文所要讨论的。

核心思想:重新做一次公平实验

作者构建了一个统一框架,只改变一个变量,其他全部固定,下面是文章中分析的变量:

复制代码
1. backbone
2. 分辨率
3. batch size
4. augmentations
5. loss
6. 优化器

这样可以真正衡量lifting改进对模型性能的贡献。

模型结构

  1. 整体pipeline:

    复制代码
     						多相机 RGB
     						    ↓
     						2D ResNet-101
     						    ↓
     						Lift 到 3D voxel
     						    ↓
     						压缩 Y 维 → BEV
     						    ↓
     						BEV ResNet-18
     						    ↓
     						Segmentation + offset + centerness
  2. BEV空间设置:

  • 100m*100m
  • 分辨率200*200
  • 垂直方向8层
  1. voxel尺度:
  • 0.5m*1.25m*0.5m

最关键:Lifting机制

  1. parameter-free lifting

流程:

复制代码
a. 定义3d voxel坐标
b. 投影到每个相机
c. 在2d feature map上bilinear sample
d. 多相机取valid-weighted average 

没有depth/MLP/attention/transforner。

  1. 与Lift-Splat区别
  • Lift-Splat:每个2d pixel沿ray向3d "splat",对应下面的左图
  • Sample-BEV:每个3d voxel去2d "pull", 对应下面的右图

区别:

距离 splat sampling
近距离 更好 略差
远距离 稀疏 更稳定

总体sampling略优。

控制变量实验

  1. Lifting策略对比
方法 IOU
unweighted splat 43.1
depth splat 44.4
deformable attn 46.5
bilinear sampling 47.4
multi-scale attn 48.9

最差和最好的结果只相差4个点。

  1. 输入分辨率

从112*208增大到672*1200,IOU大幅增长。关键点:

  • 低于448*800性能明显下降
  • 最高分辨率反而下降(预训练mismatch)

最佳分辨率:672*1200。分辨率提升可以带来5-8个点提升。远大于lifting差异。

  1. batch size

最震撼的实验结果:

batch IOU
2 33
8 40
16 44
40 47+

随着batch增大,IOU提升了14个点,增大batch效果十分明显。

  1. backbone
backbone IOU
EfficientNet-B0 43.7
EfficientNet-B4 46.4
ResNet-50 46.6
ResNet-101 47.4

backbone影响3-4个点。

  1. augmentation
增强 提升
random crop +1.6
random ref camera +0.6
camera dropout 反而下降

效果不大。

Radar分析

  1. 模态对比
模态 IOU
RGB 47.4
RGB+Radar 55.7
RGB+Lidar 60.8

多模态对IOU提升巨大:+8。

  1. radar使用细节
  • 使用meta-data:速度、置信度等,提升+0.7 IOU
  • 不做官方filtering:官方过虑,降低2 IOU;过滤会误删真值
  • 多帧radar:1 sweep -> 53.1,3 sweep -> 55.7;radar太稀疏,需要时间积累

与SOTA对比

方法 IOU
BEVFormer 44.4
Simple-BEV 47.4
Simple-BEV + Radar 55.7

Simple-BEV优势:

复制代码
1. 参数更少
2. 速度更快
3. 训练更稳定

总结

本文证明:训练规模 + 多模态信息 >> 复杂 lifting 设计

相关推荐
咚咚王者2 小时前
人工智能之视觉领域 计算机视觉 第五章 图像阈值处理
人工智能·计算机视觉
sali-tec15 小时前
C# 基于OpenCv的视觉工作流-章25-ORB特征点
图像处理·人工智能·opencv·算法·计算机视觉
十铭忘18 小时前
个人思考3——世界动作模型
人工智能·深度学习·计算机视觉
如若1231 天前
SoftGroup训练FORinstance森林点云数据集——从零到AP=0.506完整复现
人工智能·python·深度学习·神经网络·计算机视觉
楚来客1 天前
自动驾驶技术架构发展历程简介
人工智能·架构·自动驾驶
何伯特1 天前
越野环境自动驾驶状态机:基于TinyFSM的工程实践
人工智能·机器学习·自动驾驶
rit84324991 天前
matlab实现自适应稀疏表示同时完成图像融合与去噪
人工智能·计算机视觉·matlab
春日见1 天前
如何查看我一共commit了多少个,是哪几个,如何回退到某一个版本
vscode·算法·docker·容器·自动驾驶
yong99901 天前
基于SIFT的MATLAB图像拼接实现
人工智能·计算机视觉·matlab