LeAD-M3D ：单目3D检测新SOTA

论文地址：https://arxiv.org/pdf/2512.05663

项目主页：https://deepscenario.github.io/LeAD-M3D/

代码地址：暂未开源

摘要

由于严重的深度模糊性、视点转移以及3D推理的高计算成本，实时单目3D检测仍具挑战性。现有方法要么依赖激光雷达（LiDAR）或几何先验来补偿缺失的深度，要么牺牲效率以实现有竞争力的精度。作者引入了 LeAD-M3D，一种单目3D检测器，能够实现最先进的精度和实时推断，无需额外模态。

作者的方法由三个关键组成部分驱动。非对称增强去噪蒸馏（Asymmetric Augmentation Denoising Distillation A2D2 ）通过质量和重要性加权深度特征损失，将清晰图像上训练的教师网络学习到的几何知识传递给用带有混合噪声图像的学生网络，实现更强的深度推理，无需 LiDAR 监督。3D 感知一致匹配（3D-aware Consistent Matching CM3D ）通过将 3D MGIoU 集成到匹配分数中，提升预测与GT的分配，从而实现更稳定和精准的监督。最后，置信度门控3D推理（Confidence Gated 3D Inference CGI3D）通过限制昂贵的 3D 回归到最高置信区，加速检测。

这些组件共同为单目3D 检测开辟了new Pareto frontier：LeAD-M3D 在 KITTI 和 Waymo 上实现了SOTA，在 Rope3D 上实现了最佳汽车 AP，同时比以往高精度方法运行速度更快能达到 3.6倍。结果表明，单目3D 检测的高保真度和实时效率是可以同时实现的------无需依赖 LiDAR、立体或几何假设。

本文贡献：

1、提出了非对称增强去噪蒸馏（A2D2），这是一种新颖的无激光雷达知识蒸馏方案，适用于单目3D检测（M3D）。它通过基于混合的信息不对称和质量与重要性加权特征损失传递几何知识，增强学生的深度推理能力，而无需特别的深度信息。

2、引入了3D感知一致匹配（CM3D），一种动态任务比对策略，通过引入 3D MGIoU 项显著提升预测与GT的分配。这通过结合 2D 和 3D 几何质量对齐预测，实现更好的目标定位。

3、提出置信度门控3D推理（CGI3D），一种轻量级推理策略，将昂贵的3D回归限制在高置信度区域。这有效减少了head-level FLOPs，实现实时推理而不降低检测精度。

4、展示了 LeAD-M3D 在三个成熟数据集------KITTI、Waymo 和 Rope3D 上的有效性。LeAD-M3D 在所有数据集上都实现了最先进的精度，无需依赖 LiDAR、立体或几何先验，并为准确性与效率权衡开辟了new Pareto frontier

非对称增强去噪蒸馏（A2D2）

Asymmetric Augmentation Denoising Distillation (A2D2) 是LeAD-M3D的核心。传统的知识蒸馏（Knowledge Distillation, KD）通常让教师模型拥有"特权信息"（如LiDAR深度），而学生模型只有RGB图像。A2D2则另辟蹊径，通过数据增强的不对称性来构建师生差异。

不对称输入 ：教师模型输入清晰的原始图像，而学生模型输入经过Mixup增强的混合图像。
去噪任务：学生模型不仅要学习检测物体，还要学会从混合图像中"去噪"，恢复出教师模型在清晰图像上提取的深度特征。
加权损失 ：为了让学生学得更好，A2D2引入了质量加权（Quality-Weighted） 和**重要性加权（Importance-Weighted）**的特征损失。

具体来说，教师质量指标基于相对深度误差计算:

其中是真值深度，是教师预测深度。这意味着教师预测越准，权重越高。特征重要性指标基于深度头权重的幅值：

最终的蒸馏损失结合了这两个权重：

只有当教师预测的深度准确，且该特征通道对结果重要时，才赋予较高的蒸馏权重。

这种设计迫使学生模型学习更鲁棒的几何特征，从而在没有LiDAR监督的情况下也能推断出准确的深度。

3D感知一致性匹配（CM3D）

3D-aware Consistent Matching (CM3D) 旨在解决训练过程中的正负样本分配问题。传统的YOLO系列通常仅基于2D IoU来分配标签，但在3D检测中，两个物体可能2D投影重叠严重（如Mixup增强后），但3D位置相距甚远。

CM3D在匹配分数中引入了3D MGIoU（Marginalized Generalized IoU） 项。传统的2D匹配分数仅考虑分类概率和2D IoU，而CM3D将其扩展为：

这意味着标签分配不仅看2D重叠，还要看3D空间的一致性。这种联合2D-3D的对齐策略，使得模型能够获得更精准、更符合物理实际的监督信号，尤其是在拥挤场景或Mixup增强下表现更稳健。

置信度门控3D推理（CGI3D）

Confidence-Gated 3D Inference (CGI3D) 是一个轻量级的推理加速策略。研究人员发现，3D回归头（Regression Heads）通常在整个特征图上密集运行，但绝大多数区域都是背景，计算资源被大量浪费。

CGI3D的策略非常直观且高效：

先运行轻量级的分类头，找出置信度最高的Top-k个位置。
仅在这些位置周围提取的特征块。
只对这些特征块运行昂贵的3D回归头。

该策略在不损失任何精度的情况下，大幅减少了计算量（FLOPs），显著提升了推理速度。

实验结果

KITTI数据集

在KITTI测试集上，LeAD-M3D X模型在Car类别上取得了SOTA精度，超越了所有单目方法，甚至包括那些使用LiDAR或几何先验的方法。

精度：在Moderate难度下，AP3D|R40 达到 21.20%，超越了之前的SOTA方法MonoDiff (21.02%)。
速度：LeAD-M3D X的推理时间仅为 23.6ms ，比MonoDiff快了 3.6倍 。如果使用更小的N模型，推理时间仅需 9.7ms（>100 FPS）。

Waymo与Rope3D数据集

Waymo ：在Level 1难度下，LeAD-M3D X的AP3D达到 16.46% ，比之前的最佳模型MonoLSS高出 2.97% 。
Rope3D：这是一个具有挑战性的交通监控视角数据集。LeAD-M3D在Car类别上取得了最佳结果，证明了其在不同相机视角下的强大泛化能力。

消融实验

消融实验表明，A2D2模块是性能提升的关键，带来了 +2.29 AP 的增长。而CM3D贡献了 +0.83 AP。这证实了非对称蒸馏策略在提取几何特征方面的有效性