文章目录
- [一 CenterPoint、PV-RCNN和M3DETR的骨干网络选择差异](#一 CenterPoint、PV-RCNN和M3DETR的骨干网络选择差异)
-
-
- [1. CenterPoint](#1. CenterPoint)
- [2. PV-RCNN](#2. PV-RCNN)
- [3. M3DETR(假设为类似DETR的3D检测器)](#3. M3DETR(假设为类似DETR的3D检测器))
- 总结对比
-
- [二 3D点云目标检测方法](#二 3D点云目标检测方法)
-
-
- [1. 基于体素的方法(如VoxelNet、SECOND)](#1. 基于体素的方法(如VoxelNet、SECOND))
- [2. 基于点的方法(如PointNet++、PointRCNN)](#2. 基于点的方法(如PointNet++、PointRCNN))
- [3. 混合方法(如PointPillars)](#3. 混合方法(如PointPillars))
- [4. 性能与效率权衡](#4. 性能与效率权衡)
- 总结
-
一 CenterPoint、PV-RCNN和M3DETR的骨干网络选择差异
1. CenterPoint
-
骨干网络选项 :支持VoxelNet 和PointPillars两种主流架构。
- VoxelNet:通过稀疏3D卷积处理体素化点云,适合高精度场景(如nuScenes)。
- PointPillars:将点云转换为伪图像(Pillar表示),使用2D卷积,计算效率更高但精度略低。
-
VoxelNet :
通过体素化(如0.075m×0.075m×0.2m的网格)将点云转换为稀疏体素,使用**稀疏3D卷积(SpConv)**提取特征,最终投影为鸟瞰图(BEV)特征。
- 关键模块 :
- 体素特征编码(VFE)简化版(如HardSimpleVFE)对体素内点云求均值。
- 中间特征提取层(如SpMiddleResNetFHD)通过多级稀疏卷积逐步压缩空间维度。
- 关键模块 :
-
PointPillars :
将点云划分为柱状(Pillar)结构,直接生成伪图像特征,后续用2D卷积处理,显著提升计算效率。
-
设计特点:CenterPoint的检测头(center-based)与骨干解耦,可灵活适配不同骨干。
2. PV-RCNN
- 骨干网络 :基于VoxelNet 的稀疏3D卷积提取体素特征,并融合**PointNet++**的关键点特征。
- 两阶段设计:第一阶段生成体素提案,第二阶段通过关键点特征细化检测框。
- 优势:结合体素的规则性和点云的几何细节,提升小目标检测精度。
3. M3DETR(假设为类似DETR的3D检测器)
- 骨干网络 :通常基于VoxelNet 或PointNet++ ,但核心创新在于Transformer解码器 :
- 若使用体素化输入(如Waymo数据集),则采用VoxelNet的稀疏卷积。
- 若直接处理点云,则依赖PointNet++提取局部特征。
- 多任务扩展:如M3Net(多模态版本)可能引入多模态骨干(如BEVFormer)。
总结对比
方法 | 骨干网络 | 核心特点 |
---|---|---|
CenterPoint | VoxelNet / PointPillars | 灵活适配,检测头与骨干解耦 |
PV-RCNN | VoxelNet + PointNet++ | 两阶段融合体素与点特征 |
M3DETR | VoxelNet 或 PointNet++ | Transformer解码器主导 |
结论:三者均依赖经典骨干(VoxelNet/PointNet++/PointPillars),但架构设计差异显著:
- CenterPoint强调骨干灵活性 ,PV-RCNN侧重多特征融合 ,M3DETR则通过Transformer增强全局建模。
二 3D点云目标检测方法
1. 基于体素的方法(如VoxelNet、SECOND)
- 使用3D卷积 :这类方法将点云转换为规则的体素网格 (3D voxel grid),并直接应用3D卷积提取特征。例如:
- VoxelNet:通过体素特征编码(VFE)生成稀疏4D张量后,使用3D卷积聚合局部特征。
- SECOND :改进VoxelNet,采用稀疏3D卷积优化计算效率,但本质仍是3D卷积。
- 原因:体素化后的数据是规则的三维网格结构,适合3D卷积操作。
2. 基于点的方法(如PointNet++、PointRCNN)
- 不使用3D卷积 :直接处理原始点云数据,通过逐点MLP(1×1卷积)和最大池化 提取特征。例如:
- PointNet++:通过层次化点集采样和局部特征聚合(类似PointNet),无需体素化或3D卷积。
- PointRCNN:基于PointNet++提取点特征,后续使用2D卷积处理BEV投影。
3. 混合方法(如PointPillars)
- 避免3D卷积 :将点云转换为伪图像 (如BEV下的Pillar表示),后续使用2D卷积 处理。例如:
- PointPillars:通过柱状(Pillar)编码将3D点云压缩为2D网格,显著提升速度。
4. 性能与效率权衡
- 3D卷积的局限性:计算开销大,尤其在稀疏点云场景(如远距离物体)中效率低。
- 替代方案:稀疏卷积(SECOND)、2D卷积(PointPillars)或点级操作(PointNet++)更高效,但可能损失部分3D几何信息。
总结
- 基于体素的方法(VoxelNet、SECOND)必须使用3D卷积。
-
- 基于点的方法(PointNet++)和部分混合方法(PointPillars)避免3D卷积,转而采用更高效的操作。