论文解读--FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

摘要

3D目标检测中的假阴性（FN），例如漏检行人、车辆或其他障碍物，可能在自动驾驶中导致潜在的危险情况。尽管这种问题可能是致命的，但在许多现有的3D检测方法中研究不足。在本工作中，我们提出了困难实例探测（HIP），这是一种通用流程，可以多阶段方式识别FN，并指导模型关注发掘困难实例。对于3D目标检测，我们将该方法具体化为FocalFormer3D，这是一种简单而有效的检测器，在挖掘困难对象和提高预测召回率方面表现出色。FocalFormer3D具有多阶段查询生成机制，用于发现困难对象，以及基于边界框的Transformer解码器，以高效地区分大量候选对象。nuScenes和Waymo数据集上的实验结果验证了FocalFormer3D的优越性能。这种优势不仅在LiDAR和多模态设置中提升了检测和跟踪的表现。值得注意的是，FocalFormer3D在nuScenes检测基准上实现了70.5 mAP和73.9 NDS，而在nuScenes跟踪基准上实现了72.1 AMOTA，两者均排名nuScenes LiDAR榜单第一。我们的代码可在https://github.com/NVlabs/FocalFormer3D获取。

1 介绍

3D物体检测是一项重要但具有挑战性的感知任务。近年来的先进3D物体检测器主要依赖于鸟瞰图（BEV）表示[1--3]，其中来自多种传感器的特征被聚合以在自车坐标空间中构建统一表示。关于基于BEV的3D检测，已有丰富且不断增长的研究文献，包括多模态融合[4--10]、第二阶段优化（表面点池化[3]、RoIPool[11--14]以及跨注意力模块[4, 15]）。

尽管付出了巨大努力，但针对由遮挡物和杂乱背景引起的漏检或未检测对象的明确探索仍然有限。漏检在自动驾驶中尤其令人担忧，因为它会导致预测和规划系统中信息缺失。当一个物体或物体的一部分未被检测到时，自动驾驶车辆可能无法意识到潜在的障碍物，如行人、骑自行车的人或其他车辆。这在车辆高速行驶时尤为危险，可能导致潜在的危险情况。因此，减少漏检对于确保自动驾驶的安全至关重要。

为了解决3D检测中的假阴性问题，我们提出并构建了一个名为困难实例探测（HIP）的流程。受级联式解码器头在目标检测中的启发[16--18]，我们提出了一个逐步探测假阴性样本的流程，这显著提高了召回率。图1以级联的方式展示了该流程。在每个阶段，HIP会抑制真正的正样本候选，并专注于前一阶段的假阴性候选。通过迭代HIP阶段，我们的方法能够挽回那些难以检测的假阴性样本。

图 1. 困难实例探测（HIP）的可视化示例。通过利用这种多阶段预测方法，我们的模型能够逐步关注难样本，并增强其逐步检测这些样本的能力。在每个阶段，模型都会生成一些正样本目标候选（用绿色圆圈表示）。在训练过程中，分配给真实目标的候选可以被分类为真阳性（TP，用绿色方框表示）或假阴性（FN，用红色方框表示）。我们明确地将未匹配的真实目标建模为难样本，这些难样本成为后续阶段的主要目标。相反，正样本被视为易样本（用灰色方框表示），在后续阶段的训练和推理过程中将被忽略。最后，将跨阶段的所有热图预测收集为初始目标候选。为了更好地可视化，我们忽略了假阳性。

基于HIP，我们引入了一种3D目标检测器FocalFormer3D，如图2所示。特别是，采用了多阶段热图预测 [3, 19] 来挖掘困难样本。我们维护了一个类别感知的累计正样本掩码，表示前一阶段的正样本区域。通过这种掩码设计，模型省略了对简单正样本的训练，从而专注于困难样本（假阴性）。最后，我们的解码器收集所有阶段的正样本预测以生成目标候选。FocalFormer3D在平均召回率方面相对于基线方法持续展示出显著提升。

图2. FocalFormer3D的整体架构。整体框架包含两个新颖组件：一个多阶段热图编码网络，它使用Hard Instance Probing（HIP）策略生成高召回率的目标查询（候选），以及一个带重新评分机制的可变形Transformer解码网络，负责从大量候选中消除误报。 (a) 在从各模态提取特征后，地图视图特征生成一组多阶段BEV（鸟瞰视图）特征，然后生成BEV热图。正样本掩码用于累积排除前阶段容易的正样本候选。剩余的目标候选根据BEV热图的响应在多阶段过程中被选取和收集。 (b) 一个可变形Transformer解码器被调整以有效处理多样化的目标查询。查询嵌入通过一个框池化模块得到增强，该模块利用中间目标监督来识别局部区域。它以局部范围的方式优化目标查询，而不是点级别。为清晰起见，图中未显示残差连接和归一化层。

此外，我们还引入了一个框级精炼步骤，以消除冗余的目标候选。该方法采用可变形变换器解码器 [17]，并使用 RoIAlign 将候选表示为框级查询。这允许进行框级查询交互和迭代框精炼，通过鸟瞰图上的 RoIAlign [20, 21] 将目标查询与充足的框上下文绑定，从而执行相对边界框精炼。最后，采用重评分策略从目标候选中选择正样本。我们在表 6 中的消融研究展示了局部精炼方法在处理足够目标候选方面的有效性。

我们的贡献可以总结如下：

• 我们提出了Hard Instance Probing（HIP），这是一种可学习的方案，用于以多阶段方式自动识别假阴性样本。

• 我们提出了用于3D目标检测的FocalFormer3D，能够有效挖掘BEV上的困难样本，并在平均召回率方面展示出其有效性。

• 不依赖多余技巧，我们的模型在基于LiDAR和多模态环境下都实现了最先进的检测性能。值得注意的是，在提交时，我们的模型在nuScenes 3D LiDAR检测和跟踪排行榜上均排名第一。

2 相关工作

现代的3D物体检测器，无论是基于LiDAR的[1 3, 12, 13, 22--29]，还是基于摄像头的[30--37]，或多模态的[4--8, 38--45]3D物体检测器，一般都依赖于鸟瞰图（BEV）表示[46]。这些方法采用稠密特征图或稠密锚点，在鸟瞰图（BEV）空间进行物体预测。在这些方法中，VoxelNet [22]作为先驱工作，将点云离散为体素表示，并应用稠密卷积生成BEV热图。SECOND [22]通过3D稀疏卷积[47]加速VoxelNet以提取3D特征。一些基于Pillar的检测器[2, 23, 48, 49]则压缩高度维度，并利用2D卷积网络实现高效的3D检测。

与密集检测器不同，基于点的 3D 检测器 [11, 50--52] 通过 PointNet [53, 54] 直接处理点云，并在稀疏表示上执行分组或预测。关于点云邻域查询的参与，对于大规模点云来说，这会变得耗时且难以承受。关于计算和空间成本，另一类 3D 检测器直接在稀疏点云上预测物体，以避免密集特征构建。SST [55] 应用稀疏区域注意力，并避免对小目标进行下采样。FSD [56] 则进一步在通过 SST [55] 和 SparseConv 获得的稀疏表示上直接识别实例，以实现长距离检测。

最近的多模态检测器 [5--7, 39, 42, 57] 遵循 BEV 检测器的类似范式，并通过物理投影或可学习的 LiDAR 与摄像头之间的对齐方式来结合多视角图像特征。TransFusion [4] 使用交叉注意力来为每个对象查询获取图像特征。尽管存在各种模态特定的体素特征编码器，这些检测器最终仍在热图层面生成用于分类和回归的密集 BEV 特征。

3 方法论

我们在第3.1节中介绍了用于自动识别困难实例（假阴性）的困难实例探测（HIP）。然后，我们展示了FocalFormer3D两个主要组件的实现方法。第3.2节描述了我们的多阶段热图编码器，它在HIP之后收集假阴性，以生成高召回率的初始目标候选。第3.3节介绍了一个基于边框的可变形解码器网络，用于进一步区分这些候选中的目标。

3.1.困难实例探测(HIP)

现实世界的应用，例如自动驾驶，需要高度的场景理解以确保安全可靠的操作。特别是，目标检测中的漏检可能带来更严重的风险，强调了高召回率的必要性。然而，在复杂场景中或者出现遮挡时，准确识别目标在三维目标检测中仍然具有挑战性，导致许多漏检预测。不幸的是，现有研究很少明确关注在检测头设计中解决漏检问题。受级联风格检测器的启发，我们制定了一种训练流程，以模拟推理时识别漏检预测的过程。

图3.困难实例探测。我们使用符号"G"来表示在训练过程中目标分配阶段被标记为真实对象的候选对象。为了清晰起见，我们省略了许多负检测预测，因为背景占据了图像的大部分。

困难实例探测的制定。我们识别困难实例的策略是逐步进行的，如图3中的一个示例所示。最初，我们将真实对象标注为

这是初始阶段的主要目标。神经网络根据一组初始对象候选A={ai, i=1,2,...}做出正面或负面的预测，这不局限于锚点 [58]、基于点的锚点 [3] 和对象查询 [59]。假设在第k阶段检测到的对象（正面预测）为

然后我们可以根据它们分配的候选对象对真实物体进行分类：

其中一个匹配度量 σ(·,·)（例如交并比 [60,61] 和中心距离 [62]）以及预定义的阈值 η。因此，左侧未匹配的目标可以被视为困难实例：

(k 1)-阶段的训练是从对象候选中检测这些目标的，同时忽略所有先前的正样本候选。

尽管级联方式模拟了识别假阴性样本的过程，但我们可能会在所有阶段收集到大量的目标候选。因此，有必要使用第二阶段的目标级精炼模型来消除任何潜在的假阳性。

与困难样本挖掘的关系。与我们方法最相关的主题是困难样本挖掘 [63, 64]，它在训练过程中对困难样本进行采样。最近的研究 [65--67] 进一步探索了软采样，例如调整损失分布以缓解前景和背景的不平衡问题。相比之下，我们的方法是分阶段操作的。具体来说，我们使用前一阶段的假阴性预测来指导模型的后续阶段从这些具有挑战性的对象中学习。

3.2. 多阶段热图编码器

接下来的子部分概述了图 2 所示的 FocalFormer3D 的关键实现。我们首先详细说明用于 BEV 检测的硬实例探测的实现方法。这涉及使用 BEV 中心热图以级联方式生成初始对象候选。

BEV感知中中心热图的初步介绍。在常规实践中 [3, 4, 19]，BEV热图头的目标是在检测到的物体中心位置生成热图峰值。BEV热图由张量 S ∈ R^{X×Y×C} 表示，其中 X × Y 表示 BEV 特征图的大小，C 是物体类别的数量。该目标通过在 BEV 物体点附近生成二维高斯实现，这些点是通过将三维盒子中心投影到地图视图上获得的。在如图4的顶视图中，物体的分布比二维图像更为稀疏。此外，假设在鸟瞰图上，同类物体之间不存在重叠。

基于不重叠假设，可以轻松地从 BEV 热图预测中排除先前容易的正样本候选。在下文中，我们将说明 HIP 的实现细节，该方法利用累积的正样本掩码。

图4. 正样本掩码的示例可视化。(左) 和预测的BEV热图 (右)。正样本掩码具有类别感知性，我们使用不同颜色展示不同类别以进行可视化。在基于池化的掩码方法中，不同类别物体的掩码区域可能会有所不同。

正向掩码累积。为了跟踪前一阶段的所有容易检测到的正向目标候选，我们在每个阶段的 BEV 空间上生成正向掩码（PM），并将其累积为累积正向掩码（APM）：

它被初始化为全零。

多阶段 BEV 特征的生成是通过级联方式完成的，在阶段之间使用轻量化的逆残差块 [68]。通过添加额外的卷积层生成多阶段 BEV 热图。在每个阶段，我们根据正预测生成正掩码。为了模拟识别假阴性的过程，我们使用一种测试时选择策略，根据 BEV 热图响应对分数进行排序 [3, 4]。具体来说，在第 k 阶段，对所有 BEV 位置和类别的 BEV 热图进行 Top-K 选择，产生一组目标预测 Pk。然后正掩码 Mk ∈ {0,1}X×Y×C 通过对每个预测目标 pi ∈ Pk 将 M(x,y,c) = 1 设置为正预测的位置来记录所有正预测的位置，其中 (x,y) 表示 pi 的位置，c 是 pi 的类别。其余点默认设置为 0。

根据不重叠假设，在掩码上表示存在正样本候选（在中心热图中表示为一个点）的理想方法是，如果存在匹配的真实框，则将该框进行掩码。然而，由于在推理阶段无法获取真实框，我们在训练期间提出了以下掩码方法：

• 点掩码。这种方法不进行任何更改，只填充正样本候选点的中心点。

• 基于池化的掩码。在这种方法中，较小的物体填充中心点，而较大的物体则使用 3 × 3 的卷积核填充。

• 框掩码。这种方法需要额外的框预测分支，并涉及填充预测的 BEV 框的内部区域。

第 k 阶段的累积正向掩码（APM）通过简单累加先前的正向掩码获得，具体如下：

通过对 BEV 热力图 Sk 进行掩码

我们在当前阶段省略先验的简单正样本区域，从而使模型能够关注先验阶段的假负样本（困难实例）。为了训练多阶段热图编码器，我们采用高斯焦点损失 [4] 作为训练损失函数。我们将各阶段的 BEV 热图损失相加，以获得最终的热图损失。

在训练和推理过程中，我们从所有阶段收集正向候选作为第二阶段重新评分的对象候选，以作为潜在的假阳性预测。

关于HIP实施有效性的讨论。尽管HIP策略很简单，但掩码方式有两个关键标准需要满足，以确保HIP的有效实施：

• 在当前阶段排除之前的正对象候选。

• 避免移除潜在的真实对象（假阴性）。

点掩码满足以下事实所基于的两个要求。由于Top-K选择是基于预测的BEV热图评分排序，当一个点被掩码时，最热的响应点会自动被排除。此外，类别感知正掩码的设计确保了在BEV的类内层面上非重叠假设得以满足。

然而，点掩码策略效率较低，因为与使用真实框指导的理想掩码相比，每个正预测仅排除了一个 BEV 对象候选。因此，掩码区域与排除操作的有效性之间存在权衡。我们在表 5 中比较了三种策略，基于池化的掩码表现优于其他方法。

3.3. 框级可变形解码器

从多阶段热图编码器获得的目标候选可以被视为位置目标查询 [4, 69]。初始候选的召回率会随着收集候选数量的增加而提高。然而，冗余的候选会引入误报，因此对后续的目标级精炼模块提出了较高的性能要求。

为了提高对象查询处理的效率，我们采用了可变形注意力[17]，而不是计算量大的模块，如交叉注意力[59]或框注意力[70]。与以前使用中心点特征作为查询嵌入的方法[4, 69]不同，我们将对象候选建模为框级查询。具体来说，我们在可变形解码器层之间引入对象监督，从而促进相对框的预测。

盒子池化模块。为了更好地以规则网格的方式建模物体与局部区域之间的关系，我们在盒子池化模块中使用简单的 RoIAlign [20] 从 BEV 特征中提取盒子上下文信息，如图 2 所示。具体来说，给定中间预测的盒子，每个物体查询从 BEV 图中提取 7×7 的特征网格点 [20]，然后经过两层 MLP。位置编码也应用于查询和所有 BEV 点，以提取位置信息。这使我们能够将内容信息和位置信息更新到查询嵌入中。这个轻量级模块增强了可变形解码器的查询特征（参见表 6）。

解码器实现。遵循 Deformable DETR [17]，我们的模型在所有注意力模块中使用 8 个头，包括多头注意力和多头可变形注意力。可变形注意力在 3 个尺度上使用 4 个采样点。为了生成三种尺度的 BEV 特征，我们对原始 BEV 特征应用 2× 和 4× 下采样操作。盒子池化模块在每个旋转的 BEV 盒子内提取 7×7 的特征网格点，并经过 2 层全连接层，将对象特征添加到查询嵌入中。我们将预测的盒子扩展到其原始大小的 1.2 倍。

3.4 模型训练

该模型分两个阶段进行训练。在第一阶段，我们使用可变形变换器解码头训练LiDAR主干网络，我们称之为DeformFormer3D（表4(a)）。在从DeformFormer3D初始化权重后，我们训练FocalFormer3D检测器，该检测器包括多阶段热图编码器和盒级可变形解码器。然而，在使用二分图匹配训练可变形解码器的过程中，我们在早期阶段遇到收敛缓慢的问题[18]。为了解决这一问题，我们从真实目标生成噪声查询[18, 77, 78]，从而使模型可以从零开始进行有效训练。此外，我们通过排除预测与其真实目标之间中心距离超过7米的匹配对，改进了训练过程。

4 实验

4.1 实验设置

数据集和指标。我们在 nuScenes 和 Waymo 3D 检测数据集上评估我们的方法。

nuScenes 数据集 [62] 是一个大规模的户外数据集。nuScenes 包含 1,000 个多模态数据场景，包括32线LiDAR，20FPS的6视角摄像头图像。

我们主要在仅LiDAR和LiDAR-相机融合设置上评估我们的方法。评估指标遵循nuScenes官方指标，包括平均精度（mAP）和nuScenes检测得分（NDS），该得分通过对中心距离阈值 D={0.5, 1., 2., 4.}(米) 的匹配结果取平均来定义。为了评估目标查询的质量，我们还引入了基于中心距离定义的平均召回率（AR）。我们的消融研究主要使用nuScenes数据集，除非另有明确说明。

Waymo开放数据集[61]的检测范围为150m×150m，相比之下，nuScenes数据集的检测范围较小。Waymo数据集包含798个训练场景和202个验证场景。官方使用的评估指标为平均精度（mAP）和带航向的平均精度（mAPH），其中mAP根据航向精度加权。mAP和mAPH的分数使用3D交并比（IoU）阈值计算，对于车辆为0.7，对于行人和骑行者为0.5。评估有两个难度级别：Level 1，对应包含超过五个LiDAR点的盒子；Level 2，对应包含至少一个LiDAR点的盒子。在这两个难度级别中，Level 2被优先作为所有实验的主要评估指标。

实现细节。我们的实现主要基于开源代码库 MMDetection3D[79]。对于 LiDAR 主干网络，我们使用 CenterPoint-Voxel 作为点云特征提取器。对于多阶段热图编码器，我们应用了三阶段，默认为生成总共 600 个查询。数据增强包括沿 X 和 Y 轴的随机双向翻转、[-π/4, π/4] 范围内的随机全局旋转、[0.9, 1.1] 范围的随机缩放，以及在所有轴上标准差为 0.5 的随机平移。所有模型在八个 V100 GPU 上以批量大小 16 进行训练。更多实现细节请参考补充文件。

表1. nuScenes 3D 检测测试集上的性能比较。†表示使用翻转测试时的增强。‡表示同时使用翻转和旋转测试时的增强。C.V、Motor.、Ped. 和 T.C. 分别是施工车辆、摩托车、行人和交通锥的缩写。

4.2 主要结果

基于nuScenes的LiDAR三维目标检测。我们在nuScenes测试集上评估了FocalFormer3D的性能。如表1所示，结果显示其在各种评估指标和设置上均优于现有最先进的方法。我们单模型的FocalFormer3D达到了68.7的mAP和72.6的NDS，比先前的TransFusion-L方法在mAP上高出3.2点，在NDS上高出2.4点。值得注意的是，即使与使用分割级标签训练的先前最佳方法相比，我们在没有额外监督的情况下仍然比LiDARMultiNet在mAP上高出1.7点，在NDS上高出1.0点。

nuScenes多模态3D目标检测。我们将我们的方法扩展为一个简单的多模态变体，并展示其通用性。参考TransFusion [4]，我们使用在COCO [80]和nuImage [62]数据集上预训练的ResNet-50作为图像模型，并在训练过程中冻结其权重。为了减少计算成本，输入图像被缩小为原始大小的一半。不像BEV Fusion [5,6]中使用的重量级lift-splat-shot [32]相机编码器，多视角相机图像被投影到预定义的体素空间，并与LiDAR BEV特征融合。更多细节可以在附录中找到。在没有测试时增强的情况下，我们的简单多模态变体模型以更少的推理时间（表2）超过了所有其他最先进的方法。使用TTA后，FocalFormer3D达到了72.9 mAP和75.0 NDS，在nuScenes基准上所有单模型方案中排名第一。有趣的是，与其他方法相比，我们的模型在一些稀有类别（如拖车、摩托车、自行车）上也取得了较高的结果。

nuScenes 3D 目标跟踪。为了进一步展示其多功能性，我们还将 FocalFormer3D 扩展到 3D 多目标跟踪（MOT），使用检测跟踪算法 SimpleTrack。有兴趣的读者可以参考原文 [81] 以获取更全面的细节。如表 2 所示，FocalFormer3D 在 LiDAR 设置下比之前的最先进方法 TransFusion-L [4] 提高了 2.9 点，而 FocalFormer3D-F 在 AMOTA 方面比 TransFusion 提高了 2.1 点。此外，我们的单模型 FocalFormer3D-F 在双翻转测试结果下的表现甚至优于采用模型集成的 BEVFusion [6]。

表2. nuScenes 3D 跟踪测试集上的性能比较。† 基于表1中的双翻转测试结果。‡ 基于模型集成。

表3. Waymo验证集上的性能比较。所有模型均输入单帧点云。带∗标记的方法表示在VoxelNet中使用了不同的点云主干。带∧标记的方法表示我们的复现。采用的评估指标为LEVEL2难度，并在完整的Waymo验证集上报告结果。

4.3 召回分析

为了诊断性能改进，我们比较了几种近期方法在两个阶段的AR表现-图5中的初始BEV热力图预测和最终框预测。AR指标是基于中心距离按照nuScenes指标和不同的距离阈值（例如，0.5米、1.0米、2.0米、4.0米）计算的，并比较了平均AR（mAR）。

回顾对初始对象候选者的比较。图 5 比较了采用相同SpareUNet 基础架构的最新方法的召回率情况。在总共 200 次查询中，FocalFormer3D-200Preaches 的平均重叠率（mAR）为 75.2mAR，与之前的激光雷达技术"TransFusion-L"相比，实现了相当且一致的改进，提升了 4.5mAR。令人惊讶的是，我们基于 LiDAR 的 FocalFormer 在 mAR 指标上甚至比之前的多模态方法 DeepInteraction 高出 2.6 个百分点。当查询数量达到 600 时，FocalFormer3D 达到 79.2 的 mAR，超越了融合方法 DeepInteraction 6.6 个百分点。此外，通过整合多视角相机特征，我们的多模态版本 FocalFormer-F 的 mAR 提升至 80.9。

回顾最终目标预测的召回对比。关于3D检测器的最终预测，如图5所示，大多数LiDAR和融合方法在距离阈值增加时性能提升有限。这可以解释为较高的距离阈值对应于漏检的极端情况的性能。引入相机特征有助于模型在透视视角下理解上下文，从而带来更好的性能，如DeepInteraction。然而，它们的最终预测召回率仍远落后于FocalFormer-F，差距高达6.8个百分点。

按类别的召回率比较。我们在类别层面对图6中的目标候选进行类别召回率分析比较。结果突出了 FocalFormer3D 在提高初始 BEV 查询的相对召回率方面的有效性，相对于 TransFusion-L 提升了 10.9%。大型物体如工程车辆和挂车获得的改进最多，因为它们的初始中心预测较具挑战性。

图5. 在 nuScenes 验证集中，初始目标预测与最终目标预测中心的平均召回率比较。子图显示了基于中心距离阈值（%）的情况，遵循 nuScenes 检测指标。

图6. 在 nuScenes 验证集上按类别的召回对比，比较 TransFusion-L 和 FocalFormer3D 在不同 nuScenes 中心距离（CD）阈值（0.25/0.5/1.0 米）下的召回值。红色柱状图已归一化为 100%。

4.4 消融研究

HIP 查询大小和生成阶段。表 4a 和 4b 展示了查询数量和多阶段热图编码器阶段数的影响。当使用大约 200 的相同查询大小时，方法 (b) 使用了额外的一阶段 HIP，相比基线 (a) 的性能提高了 0.7 mAP。当提供更多查询（600）时，我们的方法 (d) 和 (e) 在 mAP 方面的提升均超过 1.1 点。

正向掩码类型。表5展示了Hard Instance Probing在各种掩码类型下有效性的消融研究。具体而言，我们将我们的方法与无掩码、基于点的掩码和基于池化的掩码性能进行了比较。结果表明，即使是单点掩码，HIP也能使基线性能提高约0.6点的mAP值。此外，基于池化的掩码显示出最佳提升，mAP提高了1.2，NDS提高了0.7，表现优于基于框的掩码。这可以归因于两个原因。首先，基于点或池化的掩码已经可以有效地排除正样本对象，因为中心热力图仅突出显示高斯峰值。其次，错误的假阳性预测或预测框可能导致对真实框的错误掩码，从而导致漏检。

逐模块优化。我们对每个模块的逐步改进进行了消融研究，结果展示在表6中，以说明各组件在困难实例探测（HIP）流水线中的有效性。最初，在没有第二阶段优化的情况下，我们使用了基于中心的简单预测 [3]（a），通过另一卷积层直接从BEV特征估计盒子。

尽管图5中平均召回率提高了9分以上，我们发现使用多阶段热图编码器生成目标候选后，(b)相对于(a)的性能提升不大。通过应用简单的目标级重评分(c)以及基于RoI的优化（使用两个隐藏的MLP层），性能提升至65.1 mAP和69.9 NDS。值得注意的是，我们完整的框级可变形解码器(e)进一步将性能提高了1.4 mAP和1.2 NDS。

为了单独评估重新评分的效果，我们进行了实验(f)，该实验通过在对象级别精炼模块中不使用任何边框或位置回归，从而排除了边框回归的影响。尽管如此，与(a)相比，实验(f)在中心精度上仍然取得了较高的成绩（66.1 mAP）。这一发现突显了仅基于BEV热力图分数在各阶段对对象候选进行初始排序的局限性。因此，它验证了在困难实例探测流程中进行第二阶段对象级重新评分的必要性（图3）。

模型组件的延迟分析。我们对FocalFormer3D在nuScenes数据集上进行了延迟分析。运行时间是在相同的V100 GPU机器上测量的以便进行比较。为了确保与CenterPoint[3]的速度比较公平，动态图体素化[87]被用于TransFusion-L和FocalFormer3D的速度测试。计算时间大部分消耗在基于稀疏卷积的骨干网络（VoxelNet [1, 22]），耗时78毫秒。我们的多阶段热图编码器收集各阶段热图中的查询耗时13毫秒，而框级可变形解码器头耗时18毫秒。需要注意的是，多阶段热图的生成仅耗时5毫秒，额外操作如Top-K选择耗时7毫秒，这表明未来的工作存在潜在的优化空间。

表4. 不同阶段数和总查询次数的影响。这里"一阶段"代表基线方法，不使用困难实例探测。

表5. 各种正向掩码类型的效果。所有模型采用相同的网络，除了掩码方式不同。

表6. 模块逐步改进。"M.S. Heat"表示将多阶段热图编码器应用于难例探测。"C.A."表示在第二阶段精化中使用可变形交叉注意力。"BoxPool"表示Box池化模块。术语"仅重评分（RescoringOnly）"指的是直接从BEV特征生成框预测并使用其解码器头对来自热图的候选预测进行重评分，而不执行额外的边界框精化的模型。

表7. 模型组件的延迟分析。参考使用 V100 GPU 测量延迟。

5 结论

在本工作中，我们明确关注自动驾驶中的致命问题，即误报漏检。我们提出了FocalFormer3D作为解决方案。它通过困难样本探测（HIP）逐步探测难以检测的实例并提高预测召回率。在基于Transformer的3D检测器上，HIP算法以有限的开销带来了显著改进。HIP算法使FocalFormer3D能够有效减少3D目标检测中的误报漏检。

局限性。一个主要局限性是 FocalFormer3D 的困难实例探测（HIP）依赖于这样一个假设：物体中心在 BEV 热图中会产生类似高斯的峰值，但对于基于摄像头的检测器而言，这一假设可能不成立，因为热图往往呈扇形。此外，关于长距离检测中的困难实例研究很少，因此需要更多研究来评估 HIP 在该领域的表现。我们将对困难实例探测进行更多研究作为未来工作。