【激光雷达3D(7)】CenterPoint两阶段细化仅使用BEV特征;PV-RCNN两阶段细化使用体素特征;M3DETRTransformer统一多表征特征

文章目录

      • [1. CenterPoint的两阶段细化模块仅使用鸟瞰视角(BEV)特征](#1. CenterPoint的两阶段细化模块仅使用鸟瞰视角(BEV)特征)
      • [2 PV-RCNN 两阶段](#2 PV-RCNN 两阶段)
      • [3 M3DETR(假设为类似DETR的3D检测器)](#3 M3DETR(假设为类似DETR的3D检测器))

1. CenterPoint的两阶段细化模块仅使用鸟瞰视角(BEV)特征

CenterPoint的两阶段细化模块主要依赖鸟瞰图(BEV)特征 ,实验中也对比了融合体素特征的方法(如Voxel-Set Abstraction和RBF插值)。结果表明,仅使用BEV特征即可达到与体素特征相当的精度,同时计算效率更高。具体分析如下:

  • BEV特征的优势:BEV投影保留了物体的水平位置和尺寸信息,适合3D检测任务,且计算复杂度低于3D体素特征。
  • 体素特征的局限性:虽然体素特征(如PV-RCNN中的VSA模块)能提供更精细的3D结构信息,但计算开销大,尤其在稀疏点云(如nuScenes)中收益有限。

CenterPoint的第二阶段是对检测结果的轻量级优化,主要依赖BEV特征。两者设计目标不同,适用场景各异。


2 PV-RCNN 两阶段

  • 核心思想 :结合体素特征关键点特征 ,通过多阶段融合提升检测精度。
    • 第一阶段:基于体素的3D骨干网络生成初始检测框(如VoxelNet)。
    • 第二阶段 :从原始点云中提取关键点特征,通过Voxel Set Abstraction (VSA) 将体素特征与关键点特征融合,增强RoI区域的3D结构信息。
  • 性能:在KITTI等数据集上表现优异,但计算成本较高。

3 M3DETR(假设为类似DETR的3D检测器)

M3DETR(Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers)基于Transformer的端到端单阶段模型

  • 核心思想 :将Transformer引入3D检测,通过全局注意力机制建模点云或体素间的长程依赖。

    • 第一阶段:体素或点云特征提取(如VoxelNet或PointNet++)。
    • 第二阶段:使用Transformer解码器对候选框进行精细化,通过交叉注意力聚合多尺度特征。
  • 性能:在小目标和遮挡场景中表现突出,但训练复杂度高。

  • 统一架构:通过Transformer同时处理多尺度、多表征(原始点云、体素、BEV)的特征,直接输出检测结果,无需显式的区域提议(Region Proposal)阶段。

  • 查询机制:类似DETR,使用可学习的查询(Query)与编码器特征交互,通过解码器直接预测边界框,省略了RoI特征提取步骤。

M3DETR通过Transformer实现端到端检测,无需显式两阶段设计。