CaDDN- Categorical Depth Distribution Network for Monocular 3D Object Detection

CVPR 2021

单目纯视觉BEV检测模型

paper:https://arxiv.org/pdf/2103.01100

code:https://github.com/TRAILab/CaDDN

  1. 视椎特征网络(和LSS做法一致,对深度有监督学习)
    1. DNN模块,抽图像特征
      1. 输入:
      2. 输出:,D:深度桶的数量,C:特征通道数
    2. 深度特征模块
      1. 输入:图像特征
      2. 输出:,对每个像素生成一个深度分布,再softmax后作为分桶结果
      3. 分桶方式:每个桶大小线性增加 linear-increasing discretization(LID)
        1. di:索引号
    3. 点乘融合
      1. 输入:图像特征(reduce降通道后),深度分布
      2. 输出:视椎特征G
  2. 视椎特征转voxel特征(和LSS做法一致)
    1. 输入:,视椎采样点,相机参数
    2. 输出:
    3. 做法:
      1. 视椎采样点用相机参数转到voxel索引
      2. 用上一阶段网络输出的深度(桶索引),去视椎特征G中抽取voxel特征V,在G对应位置周围用trilinear采样
  3. voxel特征转bev特征
    1. 输入:
    2. 输出:
    3. 做法:直接reshape
  4. DNN detector+head
    1. 采用PointPillars模块结构
  5. loss:
    1. 深度监督:
      1. focal loss,前背景像素α:3.25/0.25
    2. 整体模型:
      1. dir:回归框朝向
      2. 0.2

其他附图:

感觉paper风格偏工程

相关推荐
MavenTalk10 个月前
AI大模型走进汽车车机,智驾将是未来
人工智能·gpt·自动驾驶·汽车·ai大模型·新能源汽车·智驾