CPDet3D：面向室内外统一的稀疏监督 3D 目标检测新范式

一、研究背景与核心问题

1. 3D 目标检测的重要性与标注困境

3D 目标检测作为自动驾驶、嵌入式机器人等核心视觉任务的关键技术，其性能直接影响智能体对环境的感知能力。传统 3D 目标检测方法依赖海量精确标注数据，而 3D 点云标注不仅耗时耗力（需标注目标边界框、类别等信息），还面临室内外场景差异带来的额外挑战 ------ 室外场景（如自动驾驶）目标类别相对固定（车、行人、自行车等），而室内场景存在场景特异性类别（如卫生间的马桶、客厅的沙发），难以用统一的标注策略覆盖所有类别。

2. 现有有限监督方法的局限性

为降低标注成本，学界提出了弱监督、半监督和稀疏监督三类方法，但均存在明显不足：

弱监督方法 $24,44$ ：使用点级标注（如框中心）等弱监督信号，但无法提供精确的边界框属性，仍需少量精确标注或合成 3D 形状辅助训练；
半监督方法 $7,9,34,51$ ：依赖部分场景的全标注数据，但标注整个场景的成本依然高昂，且标注与未标注场景间的领域差距会导致信息传递失效；
稀疏监督方法 $20,42$ ：仅在每个场景中标注少量目标，是目前最具性价比的方案，但现有方法采用 GT Sampling 策略（确保单个场景覆盖所有类别），仅适用于室外场景。如图 1 (a) 所示，该策略在室内场景中完全失效 ------ 将卫生间的 "马桶" 强行放入客厅场景违背常识（图 2），导致室内稀疏监督 3D 检测任务长期缺乏有效解决方案。

图 1：(a) 现有方法依赖单场景全类别覆盖的 GT Sampling 策略，仅适用于室外；(b) 本文方法通过原型匹配实现室内外统一的稀疏监督检测。

图 2：ScanNet V2 数据集上的 GT Sampling 示意图。室内物体具有场景特异性，将卫生间的 "马桶" 放入客厅场景不具备合理性，证明现有室外导向方法无法迁移至室内。

3. 本文核心贡献

针对上述问题，本文提出CPDet3D（Class Prototype-based 3D Detector），一种面向室内外统一的稀疏监督 3D 目标检测方法，核心贡献包括：

首次实现室内外场景的统一稀疏监督检测，打破现有方法的场景局限性；
设计基于原型的目标挖掘模块，通过跨场景类别原型学习，突破单场景类别覆盖限制，为未标注目标分配原型标签；
提出多标签协同优化模块，融合稀疏标注、伪标签和原型标签，有效弥补漏检问题，无需复杂的阈值迭代设计；
实验验证：在单场景仅标注 1 个目标的稀疏设置下，ScanNet V2、SUN RGB-D 和 KITTI 数据集上分别达到全监督性能的 78%、90% 和 96%，且优于现有半监督和稀疏监督 SOTA 方法。

原文链接：Learning Class Prototypes for Unified Sparse Supervised 3D Object Detection

代码链接：https://github.com/zyrant/CPDet3D

沐小含持续分享前沿算法论文，欢迎关注...

二、方法详解

CPDet3D 的整体架构如图 3 所示，核心分为三个部分：基于原型的目标挖掘模块、多标签协同优化模块，以及两阶段训练策略。

图 3：方法整体流程。输入点云和稀疏标注后，先通过投影器生成特征并聚类得到类别原型；再通过原型匹配挖掘未标注目标的原型标签；最后通过多标签协同优化模块融合稀疏标签、伪标签和原型标签，迭代提升检测性能。

1. 基于原型的目标挖掘模块（Prototype-based Object Mining）

该模块的核心思想是：跨场景学习类别原型，将未标注目标挖掘转化为特征与原型的匹配问题，从而突破单场景类别覆盖限制。模块分为类别感知原型聚类和原型标签匹配两个子步骤。

1.1 类别感知原型聚类（Class-aware Prototype Clustering）

目标是学习跨场景的类别特异性原型，捕捉每个类别的特征分布。具体步骤如下：

特征投影 ：将检测器输出的候选区域特征（N 为候选区域数，C 为特征维度）通过多层感知机（MLP）投影得到，增强特征多样性；
类别特征筛选 ：通过类别掩码筛选出第类的标注目标特征（为布尔掩码，仅保留真实标注的正样本特征）；
最优传输匹配 ：将原型与特征的匹配建模为最优传输问题，使用 Sinkhorn-Knopp 迭代求解匹配矩阵（M 为第 k 类特征数，O 为每个类别的原型数，O>1 确保同类特征多样性）：

其中 u 和 v 为归一化向量，表示原型与特征的余弦相似度，为温度系数；
原型动量更新：基于匹配矩阵，用动量更新策略迭代优化原型，确保原型能稳定捕捉类别特征分布：

其中为动量系数，为匹配到第 i 个原型的特征；
对比损失约束：引入原型 - 特征对比损失（Info-NCE 损失 $10$ ），迫使同类特征靠近、异类特征远离，增强原型的判别性。

该过程的伪代码如算法 1 所示：

1.2 原型标签匹配（Prototype Label Matching）

初始原型由截断正态分布初始化，类别区分度低（图 4 (a)），因此需先进行 1000 轮热身迭代（warm-up），待原型收敛后（图 4 (b)）再进行标签匹配：

图 4：ScanNet V2 数据集上的原型 t-SNE 结果。热身前原型混叠（a），热身後类别边界清晰（b）。

亲和矩阵计算 ：对第个场景的投影特征和类别原型，计算点积亲和矩阵；
传播概率融合 ：融合检测器的分类分数和亲和矩阵的最大值（每个特征匹配到同类最优原型的相似度），得到传播概率（为哈达玛积）；
原型标签分配 ：对每个特征，选择传播概率最大的类别作为原型标签；
标签过滤：通过三个掩码过滤无效标签：
- 前景掩码：基于分类分数阈值过滤背景；
- 稀疏标签掩码：排除已标注区域，避免冲突；
- 范围掩码：过滤点云输入范围外的特征；最终有效原型标签为。

图 5 展示了原型标签的挖掘效果，可见即使场景中未标注某类目标（如 (a) 中未标注 "垃圾桶"），模块仍能准确挖掘出该类未标注目标（(b) 中红色区域）。

该模块的核心是融合稀疏标签、高质量伪标签和原型标签，解决高阈值伪标签导致的漏检问题，同时避免复杂的阈值调整。模块分为迭代伪标签生成和原型标签协同两个子步骤。

2.1 迭代伪标签生成（Iterative Pseudo Labeling）

生成高质量伪标签的关键是过滤噪声，步骤如下：

分数过滤 ：设定分类分数阈值，过滤低置信度预测；
IoU 过滤 ：设定 IoU 阈值，对重叠度超过阈值的候选框，保留分数较高的一个，避免重复标注；
冲突过滤 ：设定冲突阈值，过滤与稀疏标注重叠度超过阈值的伪标签，优先保留真实标注。

最终伪标签为：

其中为检测器对第个场景的原始预测。

2.2 原型标签协同（Prototype Label Cooperating）

高阈值伪标签虽保证质量，但会导致漏检。该步骤通过原型标签填补漏检区域：

基于分类分数分离前景 / 背景；
标记已被稀疏标签或伪标签覆盖的区域；
对剩余前景区域，分配原型标签作为补充，从而恢复漏检目标。

与 MixSup $46$ 、WS3D $24$ 等多标签方法相比，CPDet3D 仅需部分 3D 边界框标注，无需额外 BEV 标签，进一步降低了标注成本。

3. 两阶段训练策略

CPDet3D 采用两阶段训练，逐步提升模型性能：

阶段 1：初始检测器训练

使用稀疏标注训练初始检测器，同时训练基于原型的目标挖掘模块。损失函数为：

：检测器基础损失（与 TR3D $28$ 一致，含分类损失和回归损失）；
：原型 - 特征对比损失（Info-NCE $10$ ）；
：原型标签分类损失（Focal Loss $19$ ）。

阶段 2：多标签迭代优化

使用阶段 1 的检测器生成伪标签，融合稀疏标签、伪标签和原型标签进行迭代训练。损失函数为：

：基于伪标签的检测损失（与结构一致）。

三、实验设置与结果分析

1. 数据集与评估指标

数据集

室内数据集：
- ScanNet V2 $4$ ：18 类目标，1201 个训练场景，312 个验证场景，单场景仅保留 1 个标注目标；
- SUN RGB-D $30$ ：10 类目标，约 5000 个训练 / 验证场景，单场景仅保留 1 个标注目标；
室外数据集：
- KITTI $8$ ：3 类目标（车、行人、自行车），7481 个场景，按 2% 标注成本划分训练 / 验证集（3712/3769）。

评估指标

室内：mAP（IoU 阈值 0.25 和 0.5）；
室外：3D AP（40 个召回阈值，R40）。

基线模型

室内：TR3D $28$ 、FCAF3D $27$ ；
室外：Voxel-RCNN $5$ （含 CenterPoint $47$ 头）、CenterPoint $47$ 。

2. 与 SOTA 方法的对比

2.1 稀疏监督方法对比

室内场景（表 1）：
- ScanNet V2：CPDet3D 的 mAP@0.25 达 56.1，比 SparseDet $26$ 提升 11.3，达到全监督性能的 78%；
- SUN RGB-D：mAP@0.25 达 60.2，比 SparseDet 提升 4.0，达到全监督性能的 90%。

室外场景（表 2）：
- KITTI 车类 3D AP（中等难度）达 82.2，比 CoIn++ $42$ 提升 2.7；BEV AP 达 91.8，提升 3.0；
- 达到全监督性能的 96%，远超其他稀疏监督方法。

2.2 半监督方法对比

为验证稀疏监督的优越性，在 ScanNet V2 上与半监督 SOTA 方法 DQS3D $7$ 对比（保证标注目标数一致：半监督 5% 场景标注 vs 稀疏监督单场景 1 个标注，均约 1200 个标注目标）：

CPDet3D 的 mAP@0.25 达 56.1，比 DQS3D 高 5.4；
mAP@0.5 达 36.3，比 DQS3D 高 1.6，证明稀疏监督在标注效率相当的情况下性能更优。

3. 消融实验与参数分析

3.1 关键组件消融

在 ScanNet V2 上验证各模块的有效性（表 5）：

仅添加原型标签匹配（PLM）：mAP@0.25 从 37.6 提升至 38.0，证明仅基于分类分数的标签分配效果有限；
添加类别感知原型聚类（CPC）：mAP@0.25 提升至 39.3，mAP@0.5 提升至 26.5，证明融合特征相似度的原型学习能提升标签质量；
添加多标签协同优化（MCR）：mAP@0.25 达 51.9，mAP@0.5 达 32.3，证明迭代伪标签的有效性；
全组件（CPC+PLM+MCR）：mAP@0.25 达 56.1，mAP@0.5 达 36.3，验证各模块的协同作用。

3.2 标签质量分析

精度：伪标签与真实标注的重叠率达 95.5%，原型标签达 71.1%，低质量标签可通过 NMS 过滤；
召回率（表 4）：
- 仅用稀疏标签：mAR=8.3（覆盖率极低）；
- 稀疏标签 + 原型标签：mAR=47.8（显著提升）；
- 稀疏标签 + 伪标签：mAR=33.4（伪标签质量高但覆盖有限）；
- 三者融合：mAR=67.1（标签互补性最大化）。

3.3 参数敏感性分析

原型数量（图 6 (a)）：每个类别 10 个原型时性能最优，过少无法覆盖同类特征多样性，过多导致原型冗余；
热身迭代次数（图 6 (b)）：1000 轮热身时原型收敛，性能最佳；
动量系数 （图 6 (c)）：时原型更新稳定，性能最优。

图 6：(a) 原型数量、(b) 热身迭代次数、(c) 动量系数对性能的影响（ScanNet V2 mAP@0.5）。

4. 扩展性验证

4.1 不同标注设置扩展

多标注目标：单场景标注 2 个 / 3 个目标时，CPDet3D 分别达到全监督性能的 82%/87%，证明方法在更多标注下仍有扩展性；
单类别单标注：单场景每个类别标注 1 个目标时，CPDet3D 达到全监督性能的 96%，远超基线模型的 88%（表 8）。

4.2 不同检测器扩展

室内 FCAF3D：CPDet3D 在 ScanNet V2 上 mAP@0.25 提升 17.0，SUN RGB-D 提升 3.8；
室外 CenterPoint：无需修改即可适配，3D AP（中等难度）达 82.2，接近全监督性能（表 10），证明方法的通用性。

5. 定性结果

图 7、11-13 展示了 CPDet3D 在三个数据集上的检测效果，可见其能准确检测出未标注目标，且对室内外不同场景、不同点云扫描技术具有鲁棒性。

图 7：ScanNet V2、SUN RGB-D、KITTI 数据集上的检测结果（红色框为预测，绿色框为真实标注）。

四、总结与展望

1. 工作总结

CPDet3D 通过类别原型学习 和多标签协同优化，首次实现了室内外统一的稀疏监督 3D 目标检测。核心创新在于：

跨场景原型学习突破单场景类别覆盖限制，解决室内场景特异性问题；
多标签融合策略在保证标签质量的同时弥补漏检，无需复杂阈值设计；
性能远超现有稀疏监督和半监督方法，在极低标注成本下接近全监督性能。

2. 局限性与未来方向

局限性：原型标签的精度（71.1%）仍低于伪标签，部分小众类别（如 "浴缸"）的检测性能有待提升；
未来方向：
1. 结合语言模型增强原型的语义判别性，进一步提升小众类别的检测效果；
2. 扩展至开放词汇场景，实现未见过类别的零样本检测；
3. 优化原型更新策略，降低对超参数（如原型数量、热身迭代）的敏感性。

五、代码与资源

论文代码已开源：https://github.com/zyrant/CPDet3D，基于 mmdetection3d 和 OpenPCDet 框架实现，支持室内外数据集的快速复现。