从FCOS3D到PGD：看深度估计如何快速搭建你的3D检测项目

【导读】

还记得那个曾经在单目3D目标检测领域掀起热潮的 FCOS3D 吗？在后续更新中他们又推出了全新升级版------PGD（Probabilistic and Geometric Depth）最有意思的是，这次他们彻底换了路线：从原先的"直接回归深度"，转向了一个更加聪明、更加鲁棒的方向------结合几何关系和深度不确定性来建模目标的3D位置。

你可以把 PGD 看作是 FCOS3D 的几何感知增强版（FCOS3D++） 。不仅在 KITTI 和 nuScenes 两大主流数据集上拿下SOTA，更难得的是------它依然保持了实时推理的效率。

为什么深度估计会成为单目3D检测中的最大瓶颈？PGD 是如何只改"头部"模块就实现显著性能跃升的？这篇文章带你详细拆解这个"最聪明的升级方案"。

一、单目3D检测难在哪？关键在"深"

相比于LiDAR和双目视觉，单目图像做3D检测的最大挑战是没有直接的深度信息。PGD 作者对当前主流方法进行了系统性的分析，惊讶地发现：

只要深度估计不准，其他模块再优秀也无法提高整体性能！

换句话说， "instance-level depth"是单目3D检测的核心瓶颈 。基于这个结论，作者大胆提出：我们不妨把单目3D检测简化为一个深度估计问题！

二、FCOS3D 的基础上，如何升级为 PGD？

PGD 并不是从零设计一个新的检测框架，而是继承了 FCOS3D 的整体结构与优势设计，并针对其中最关键的"深度估计"模块进行专项改进。整体来看，PGD的升级路径可划分为三大核心技术模块：

概率建模（Probabilistic Depth Estimation）

传统 FCOS3D 是将深度作为一个连续值进行直接回归，训练不稳定、泛化能力较弱。PGD 在此基础上新增一条 "概率分支" ：

将深度范围离散为多个区间（例如每10米一个区间）；
通过 Softmax 输出一个概率分布；
最终深度由分布的期望值计算得出；
从分布中提取出的"置信分数"还能作为后续融合时的权重指标。

这种方式一方面增强了模型的稳定性，另一方面也为下一步"几何传播"提供了不确定性评估能力。

几何建模（Geometric Graph-based Propagation）

FCOS3D 只对每个实例单点预测深度，完全忽略了图像中多个物体间的相对位置与几何关系。

PGD 则引入了一种透视几何驱动的图结构，每个检测到的实例是图中的一个节点，边的方向代表深度传播路径。

基于透视投影公式，推导任意两个物体之间的相对深度关系；
对于高置信度的"锚点物体"，可以推算出低置信度物体的深度；
为避免误差扩散，采用边剪枝（edge pruning）和边门控（edge gating）机制 ：优先考虑同类物体、距离较近、类别置信度相近的传播路径；最多保留 top-k 条边用于计算；所有传播过程无额外参数，仅作为辅助输入。

这种图结构相当于让网络"看懂透视规律"，从场景上下文中进行深度校准。