A Normalized Gaussian Wasserstein Distance for Tiny Object Detection（纯翻译）

文章目录

摘要
[1 引言](#1 引言)
[2 相关工作](#2 相关工作)
- [2.1 小目标检测](#2.1 小目标检测)
- [2.2 目标检测中的评估指标](#2.2 目标检测中的评估指标)
- [2.3 标签分配策略](#2.3 标签分配策略)
[3 方法论](#3 方法论)
- [3.1 边界框的高斯分布建模](#3.1 边界框的高斯分布建模)
- [3.2 归一化高斯 Wasserstein 距离](#3.2 归一化高斯 Wasserstein 距离)
- [3.3 基于NWD的探测器](#3.3 基于NWD的探测器)
[4 实验](#4 实验)
- [4.1 与其他基于 IoU 的指标的比较](#4.1 与其他基于 IoU 的指标的比较)
- [4.2 消融研究](#4.2 消融研究)
- [4.3 主要结果](#4.3 主要结果)
[5 结论](#5 结论)

摘要

检测微小物体是一个非常具有挑战性的问题，因为微小物体仅包含几个像素大小。我们证明，由于缺乏外观信息，最先进的检测器无法在微小物体上产生令人满意的结果。我们的主要观察结果是，基于交并比 (IoU) 的指标（例如 IoU 本身及其扩展）对微小物体的位置偏差非常敏感，并且在用于基于锚的检测器时会大大降低检测性能 。为了缓解这种情况，我们提出了一种使用 Wasserstein 距离进行微小物体检测的新评估指标。具体而言，我们首先将边界框建模为 2D 高斯分布，然后提出一种称为归一化 Wasserstein 距离 (NWD) 的新指标，通过它们相应的高斯分布来计算它们之间的相似性 。所提出的 NWD 指标可以轻松嵌入到任何基于锚的检测器的分配、非最大抑制和损失函数中，以取代常用的 IoU 指标。我们在一个新的微小物体检测数据集 (AI-TOD) 上评估了我们的指标，其中平均物体大小比现有的物体检测数据集小得多。大量实验表明，当配备 NWD 指标时，我们的方法的性能比标准微调基线高出 6.7 AP 点，比最先进的竞争对手高出 6.0 AP 点。

代码可在以下位置获得：https://github.com/jwwangchn/NWD。

1 引言

微小物体在现实世界的许多应用中无处不在，包括驾驶辅助、大规模监控和海上救援。尽管由于深度神经网络的发展，物体检测取得了重大进展 [21, 15, 27]，但其中大多数都致力于检测正常大小的物体。而微小物体（AI-TOD 数据集中小于 16 × 16 像素 [29]）通常表现出极其有限的外观信息，这增加了学习判别特征的难度，导致在检测微小物体时出现大量失败案例 [25, 29, 35]。

微小物体检测 (TOD) 的最新进展主要集中在提高特征辨别能力上 [14, 37, 20, 12, 1, 19] 。一些研究致力于规范输入图像的尺度，以提高小物体和相应特征的分辨率 [24, 25]。而生成对抗网络 (GAN) 被提出来直接为小物体生成超分辨率表示 [12, 1, 19]。此外，特征金字塔网络 (FPN) 被提出来学习多尺度特征，以实现尺度不变的检测器 [14, 37, 20] 。事实上，现有的方法在一定程度上提高了 TOD 性能，但精度的提升通常是以额外的成本来实现的

图 1：IoU 对微小和正常尺度物体的灵敏度分析。注意每个网格表示一个像素，框 A 表示真实边界框，框 B、C 表示预测边界框，对角线偏差分别为 1 像素和 4 像素

除了学习判别特征之外，训练样本选择的质量对于基于锚点的微小物体检测器 [36] 也起着重要作用，其中正负 (pos/neg) 标签的分配至关重要 。然而，对于微小物体，少数像素的属性会增加训练样本选择的难度。如图 1 所示，我们可以观察到 IoU 对不同尺度物体的敏感度差异很大。具体来说，对于 6×6 像素的微小物体，微小的位置偏差就会导致 IoU 显着下降（从 0.53 下降到 0.06），从而导致标签分配不准确。然而，对于 36×36 像素的正常物体，在相同的位置偏差下，IoU 变化很小（从 0.90 变为 0.65）。此外，图 2 展示了 4 条不同物体尺度的 IoU-Deviation 曲线，随着物体尺寸变小，曲线下降得更快。值得注意的是，IoU 的敏感性源于边界框位置只能离散变化的特殊性

图 2：两种不同场景下 IoU-Deviation Curve 与 NWD-Deviation Curve 的比较。横坐标值表示 A 和 B 中心点之间的像素偏差数，纵坐标值表示相应的度量值。注意边界框的位置只能离散地变化，Value-Deviation 曲线以散点图的形式呈现。

这种现象意味着 IoU 度量不再对具有离散化位置偏差的物体尺度不变，最终导致标签分配中的以下两个缺陷 。具体而言，IoU 阈值 ( θ p θ_{p} θp, θ n θ_{n} θn) 用于在基于锚点的检测器中分配 pos/neg 训练样本，而 (0.7, 0.3) 用于区域提议网络 (RPN) [7]。首先，IoU 对微小物体的敏感性使得微小的位置偏差翻转锚点标签，导致 pos/neg 样本特征的相似性和网络收敛困难。其次，我们发现使用 IoU 度量，AI-TOD 数据集 [29] 中分配给每个ground-truth (gt) 的平均正样本数小于 1，因为某些 gt 与任何锚点之间的 IoU 低于最小正阈值。因此，训练微小物体检测器的监督信息不足 。虽然动态分配策略（如 ATSS [36]）可以根据物体的统计特征自适应地获得用于分配 pos/neg 标签的 IoU 阈值，但 IoU 的敏感性使得很难找到良好的阈值并为微小物体检测器提供高质量的 pos/neg 样本。

鉴于 IoU 不是衡量微小物体的好指标，本文提出了一种新的指标，用 Wasserstein 距离来衡量边界框的相似性，以取代标准的 IoU 。具体来说，我们首先将边界框建模为二维高斯分布，然后使用我们提出的正则化 Wasserstein 距离 (NWD) 来测量导出的高斯分布的相似性 。Wasserstein 距离的主要优点是，即使没有重叠或重叠可以忽略不计，它也可以测量分布相似性。此外，NWD 对具有不同尺度的物体不敏感，因此更适合测量微小物体之间的相似性

NWD 可以应用于单阶段和多阶段基于锚点的检测器。此外，NWD 不仅可以在标签分配中替代 IoU，还可以在非最大抑制 (NMS) 和回归损失函数中替代 IoU 。在新的 TOD 数据集 AI-TOD [29] 上进行的大量实验表明，我们提出的 NWD 可以持续提高所有实验检测器的检测性能。本文的贡献总结如下。

• 我们分析了 IoU 对微小物体位置偏差的敏感度，并提出 NWD 作为衡量两个边界框之间相似度的更好指标。

• 我们通过将 NWD 应用于基于锚点的检测器中的标签分配、NMS 和损失函数，设计了一个强大的微小物体检测器。

• 我们提出的 NWD 可以显著提高流行的基于锚点的检测器的 TOD 性能，并且在 AI-TOD 数据集上的 Faster R-CNN 上实现了从 11.1% 到 17.6% 的性能提升。

2 相关工作

2.1 小目标检测

以前的大多数小物体检测方法大致可以分为三类：多尺度特征学习、设计更好的训练策略和基于 GAN 的检测 [28]。

多尺度特征学习 ：一种简单而经典的方法是将输入图像调整为不同的尺度并训练不同的检测器，每个检测器都可以在一定范围内的尺度上实现最佳性能。为了降低计算成本，一些工作[18,14,37]尝试构建不同尺度的特征级金字塔。例如，SSD[18]从不同分辨率的特征图中检测物体 。特征金字塔网络（FPN）[14]构建了一个自上而下的结构，具有横向连接，以结合不同尺度的特征信息来提高物体检测性能 。此后，提出了许多方法来进一步提高FPN性能，包括PANet[17]、BiFPN[26]、Recursive-FPN[20]。此外，TridentNet[13]构建了一个具有不同感受野的并行多分支架构来生成特定尺度的特征图。

设计更好的训练策略 ：受同时检测微小物体和大物体的困难这一观察结果的启发，Singh 等人提出了 SNIP [24] 和 SNIPER [25] 来选择性地训练一定尺度范围内的物体。此外，Kim 等人 [10] 引入了尺度感知网络 (SAN)，将从不同空间提取的特征映射到尺度不变的子空间上，使检测器对尺度变化更具鲁棒性。

基于 GAN 的检测器 ：Perceptual GAN [12] 是第一个尝试将 GAN 应用于小物体检测的检测器，它通过缩小小物体与大物体的表示差异来改进小物体检测。此外，Bai 等人 [1] 提出了一种 MT-GAN 来训练图像级超分辨率模型，以增强小 RoI 的特征。此外，[19] 中的工作提出了一种特征级超分辨率方法来提高基于提案的检测器的小物体检测性能。

2.2 目标检测中的评估指标

IoU 是用于测量边界框之间相似性的最广泛使用的度量。然而，IoU 仅在边界框重叠时才有效 。为了解决这个问题，提出了广义 IoU (GIoU) [22]，通过添加最小框转换边界框的惩罚项。然而，当一个边界框包含另一个边界框时，GIoU 将退化为 IoU。因此，DIoU [38] 和 CIoU [38] 被提出来克服 IoU 和 GIoU 的局限性，它们考虑了三个几何特性，即重叠面积、中心点距离和长宽比。GIoU、CIoU 和 DIoU 主要应用于 NMS 和损失函数中，以取代 IoU 来提高一般物体检测性能，但很少讨论其在标签分配中的应用。在同期工作中，Yang 等人[32] 还提出了一种高斯 Wasserstein 距离 (GWD) 损失，用于有向物体检测，通过测量有向边界框的位置关系。然而，GWD 的动机是解决有向物体检测中的边界不连续性和方形问题。我们的动机是减轻 IoU 对微小物体位置偏差的敏感性，我们提出的方法可以替代基于锚点的物体检测器所有部分的 IoU。

2.3 标签分配策略

为微小物体的 gt 框分配高质量的锚点是一项具有挑战性的任务。一种简单的方法是在选择正样本时降低 IoU 阈值。虽然这可以使微小物体与更多锚点匹配，但训练样本的整体质量会下降。此外，许多最近的工作试图使标签分配过程更具自适应性，旨在提高检测性能 [6]。例如，Zhang 等人 [36] 提出了一种自适应训练样本选择 (ATSS)，通过一组锚点的 IoU 统计值自动计算每个 gt 的 pos/neg 阈值。Kang 等人 [9] 通过假设 pos/neg 样本的联合损失分布遵循高斯分布来引入概率锚点分配 (PAA)。此外，最佳传输分配 (OTA) [6] 从全局角度将标签分配过程表述为最佳传输问题。然而，这些方法都使用 IoU 度量来衡量两个边界框之间的相似性，并且主要关注标签分配中的阈值设置，这些方法并不适合 TOD。相比之下，我们的方法主要侧重于设计一个更好的评估指标，可用于替代微小物体检测器中的 IoU 指标。

3 方法论

受 IoU 实际上是用于计算两个有限样本集相似度的 Jaccard 相似系数这一事实的启发，我们基于 Wasserstein Distance 设计了一个更好的微小物体度量方法，因为它可以一致地反映分布之间的距离，即使它们没有重叠。因此，新度量方法在衡量微小物体之间的相似性方面具有比 IoU 更好的性能。具体如下。

3.1 边界框的高斯分布建模

对于微小物体，由于大多数真实物体不是严格的矩形，因此其边界框中往往会有一些背景像素。在这些边界框中，前景像素和背景像素分别集中在边界框的中心和边界上 [30]。为了更好地描述边界框中不同像素的权重，可以将边界框建模为二维 (2D) 高斯分布，其中边界框的中心像素具有最高权重，像素的重要性从中心到边界逐渐降低 。具体而言，对于水平边界框 R = ( c x , c y , w , h ) R = (cx, cy, w, h) R=(cx,cy,w,h)，其中 ( c x , c y ) 、 w 和 h (cx, cy)、w 和 h (cx,cy)、w和h分别表示中心坐标、宽度和高度。其内接椭圆的方程可以表示为

( x − μ x ) 2 σ x 2 + ( y − μ y ) 2 σ y 2 = 1 \frac{(x - \mu_x)^2}{\sigma_x^2} + \frac{(y - \mu_y)^2}{\sigma_y^2} = 1 σx2(x−μx)2+σy2(y−μy)2=1 (1)

其中 ( μ x , μ y ) (\mu_x,\mu_y) (μx,μy)是椭圆的中心坐标， σ x , σ y 是沿 x 轴和 y 轴的半轴长度 \sigma_x, \sigma_y 是沿 x 轴和 y 轴的半轴长度 σx,σy是沿x轴和y轴的半轴长度。因此， μ x = c x , μ y = c y , σ x = w 2 , σ y = h 2 \mu_x = \mathit{cx}, \mu_y = \mathit{cy}, \sigma_x = \frac{w}{2}, \sigma_y = \frac{h}{2} μx=cx,μy=cy,σx=2w,σy=2h

二维高斯分布的概率密度函数由下式给出：
f ( x ∣ μ , Σ ) = exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) 2 π ∣ Σ ∣ 1 2 f(x | \mu, \Sigma) = \frac{\exp\left(-\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu)\right)}{2\pi |\Sigma|^{\frac{1}{2}}} f(x∣μ,Σ)=2π∣Σ∣21exp(−21(x−μ)TΣ−1(x−μ))(2)

其中 x 、 μ 和 Σ 分别表示高斯分布的坐标 ( x , y ) \boldsymbol{x}、\boldsymbol{\mu} 和 \boldsymbol{\Sigma} 分别表示高斯分布的坐标 ( \mathit{x}, \mathit{y}) x、μ和Σ分别表示高斯分布的坐标(x,y)、均值向量和协方差矩阵。当
( x − μ ) T Σ − 1 ( x − μ ) = 1 (\boldsymbol{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\boldsymbol{x} - \boldsymbol{\mu}) = 1 (x−μ)TΣ−1(x−μ)=1(3)

等式 1 中的椭圆将是二维高斯分布的密度轮廓。因此，水平边界框 𝑅 = (𝑐𝑥, 𝑐𝑦, 𝑤, ℎ) 可以建模为二维高斯分布 𝒩( μ , Σ ) \boldsymbol{\mu}, \boldsymbol{\Sigma}) μ,Σ)，其中

μ = [ c x c y ] , Σ = [ w 2 4 0 0 h 2 4 ] \boldsymbol{\mu} = \begin{bmatrix} c_x \\ c_y \end{bmatrix}, \quad \boldsymbol{\Sigma} = \begin{bmatrix} \frac{w^2}{4} & 0 \\ 0 & \frac{h^2}{4} \end{bmatrix} μ=[cxcy],Σ=[4w2004h2]

此外，边界框 𝐴 和 𝐵 之间的相似度可以转换为两个高斯分布之间的分布距离。

3.2 归一化高斯 Wasserstein 距离

我们使用来自最优传输理论的 Wasserstein 距离来计算分布距离。对于两个二维高斯分布 μ 1 = N ( m 1 , Σ 1 ) , μ 2 = N ( m 2 , Σ 2 ) \mu_1 = \mathcal{N}(\mathbf{m}_1, \Sigma_1), \quad \mu_2 = \mathcal{N}(\mathbf{m}_2, \Sigma_2) μ1=N(m1,Σ1),μ2=N(m2,Σ2)， μ 1 和 μ 2 \mu_1 和 \mu_2 μ1和μ2之间的二阶 Wasserstein 距离定义为：
W 2 2 ( μ 1 , μ 2 ) = ∥ m 1 − m 2 ∥ 2 2 + Tr ⁡ ( Σ 1 + Σ 2 − 2 ( Σ 2 1 / 2 Σ 1 Σ 2 1 / 2 ) 1 / 2 ) W_2^2 (\mu_1, \mu_2) = \|\mathbf{m}_1 - \mathbf{m}_2\|_2^2 + \operatorname{Tr} \left( \Sigma_1 + \Sigma_2 - 2 \left( \Sigma_2^{1/2} \Sigma_1 \Sigma_2^{1/2} \right)^{1/2} \right) W22(μ1,μ2)=∥m1−m2∥22+Tr(Σ1+Σ2−2(Σ21/2Σ1Σ21/2)1/2)(5)

并可简化为
W 2 2 ( μ 1 , μ 2 ) = ∥ m 1 − m 2 ∥ 2 2 + ∥ Σ 1 1 / 2 − Σ 2 1 / 2 ∥ F 2 W_2^2 (\mu_1, \mu_2) = \|\mathbf{m}_1 - \mathbf{m}_2\|_2^2 + \left\| \Sigma_1^{1/2} - \Sigma_2^{1/2} \right\|_F^2 W22(μ1,μ2)=∥m1−m2∥22+ Σ11/2−Σ21/2 F2(6)

其中 ∥ ⋅ ∥ F \|\cdot\|_F ∥⋅∥F 是 Frobenius 范数。

此外，对于由边界框建模的高斯分布 N a \mathcal{N}a Na 和 N b \mathcal{N}b Nb, 边界框 A = ( c x a , c y a , w a , h a ) 和 B = ( c x b , c y b , w b , h b ) A = (cx{a}, cy{a}, w_a, h_a) 和 B = (cx_{b}, cy_{b}, w_b, h_b) A=(cxa,cya,wa,ha)和B=(cxb,cyb,wb,hb)，等式 (6) 可以进一步简化为：
W 2 2 ( N a , N b ) = ∥ ( [ c x a , c y a , w a 2 , h a 2 ] T , [ c x b , c y b , w b 2 , h b 2 ] T ) ∥ 2 2 W_2^2(\mathcal{N}_a, \mathcal{N}_b) = \left\lVert \left( \left[ cx_a, cy_a, \frac{w_a}{2}, \frac{h_a}{2} \right]^T, \left[ cx_b, cy_b, \frac{w_b}{2}, \frac{h_b}{2} \right]^T \right) \right\rVert_2^2 W22(Na,Nb)= ([cxa,cya,2wa,2ha]T,[cxb,cyb,2wb,2hb]T) 22（7）

然而， W 2 2 ( N a , N b ) W_2^2(\mathcal{N}_a, \mathcal{N}_b) W22(Na,Nb) 是一个距离度量，不能直接用作相似度度量（即，一个值在 0 和 1 之间，如 IoU）。因此，我们采用其指数形式归一化，并得到新的度量，称为归一化 Wasserstein 距离 (NWD)：
N W D ( N a , N b ) = exp ⁡ ( − W 2 2 ( N a , N b ) C ) NWD(\mathcal{N}_a, \mathcal{N}_b) = \exp \left( -\frac{\sqrt{W_2^2(\mathcal{N}_a, \mathcal{N}_b)}}{C} \right) NWD(Na,Nb)=exp(−CW22(Na,Nb) )(8)

其中 𝐶 是与数据集密切相关的常数。在接下来的实验中，我们根据经验将 𝐶 设置为 AI-TOD 的平均绝对大小，并取得最佳性能。此外，我们观察到 𝐶 在一定范围内具有鲁棒性，详细信息将在补充材料中展示。

与 IoU 相比，NWD 在检测微小物体方面具有以下优势：

（1）尺度不变性；

（2）对位置偏差的平滑性；

（3）能够衡量不重叠或相互包含的边界框之间的相似性。

如图2所示，不失一般性，我们讨论以下两种场景下度量值的变化。

在图2的第一行中，我们保持box 𝐴 和 𝐵 的尺度相同，并沿𝐴的对角线向外移动𝐵。可以看出，NWD的四条曲线完全重合，这表明NWD对box的尺度方差不敏感。此外，我们可以观察到IoU对微小的位置偏差过于敏感，但位置偏差导致的NWD变化更平滑。对位置偏差的平滑表明在相同阈值下，pos/neg样本之间的区分可能比IoU更好。在图2的第二行中，我们将𝐵的边长设置为𝐴边长的一半，并沿𝐴的对角线向外移动𝐵。与IoU相比，NWD的曲线更加平滑，即使在 ∣ A ∩ B ∣ = A or B |A \cap B| = A \quad \text{or} \quad B ∣A∩B∣=AorB 和 ∣ A ∩ B ∣ = 0 |A \cap B| = 0 ∣A∩B∣=0 之间，它都能一致地反映𝐴与𝐵之间的相似性。

3.3 基于NWD的探测器

所提出的 NWD 可以轻松集成到任何基于锚点的检测器中以替代 IoU。不失一般性，采用代表性的基于锚点的 Faster R-CNN 来描述 NWD 的使用。具体来说，所有修改都针对原来采用 IoU 的三个部分进行，包括正/负标签分配、NMS 和回归损失函数。详情如下。

基于 NWD 的标签分配
Faster R-CNN [21] 由两个网络组成：RPN 用于生成区域提议，R-CNN [7] 用于根据这些提议检测物体。RPN 和 R-CNN 都包含标签分配过程。对于 RPN，首先生成不同尺度和比例的锚点，然后将二元标签分配给锚点以训练分类和回归头 。对于R-CNN，标签分配过程与RPN类似，不同之处在于R-CNN的输入是RPN的输出 。为了克服上述IoU在微小物体检测中的缺点，我们设计了一种基于NWD的标签分配策略，利用NWD来分配标签。具体来说，为了训练 RPN，正标签将被分配给两种类型的锚点：（1）具有ground truth（𝑔𝑡）框且 NWD 值大于 θ n \theta_n θn 的具有最高 NWD 值的锚点，或（2）具有任何 𝑔𝑡 的 NWD 值高于正阈值 θ p \theta_p θp 的锚点。因此，如果锚点的 NWD 值低于所有 𝑔𝑡 框的负阈值 θ n \theta_n θn，则将负标签分配给锚点。此外，未分配正标签或负标签的锚点不参与训练过程 。请注意，为了将 NWD 直接应用于基于 anchor 的检测器，实验中使用了 θ p \theta_p θp 和 θ n \theta_n θn 作为原始检测器。

基于NWD的NMS
NMS 是对象检测流程中不可或缺的一部分，用于抑制冗余预测边界框，其中应用了 IoU 度量 。首先，它根据所有预测框的分数对其进行排序。选择得分最高的预测框 M \mathcal{M} M，并抑制与 M \mathcal{M} M 有显著重叠（使用预定义阈值 N t N_t Nt ）的所有其他预测框。此过程递归应用于剩余的框。但是，IoU 对微小物体的敏感性将使许多预测框的 IoU 值低于 N t N_t Nt，从而进一步导致假阳性FP预测。为了解决这个问题，我们建议 NWD 是微小物体检测中 NMS 的更好标准，因为 NWD 克服了尺度敏感性问题。此外，基于 NWD 的 NMS 非常灵活，只需几行代码即可集成到任何微小物体检测器中。

基于 NWD 的回归损失

为了消除训练和测试 [22] 之间的性能差距，引入了 IoU-Loss [34]。然而，在以下两种情况下，IoU-Loss 无法提供梯度来优化网络：(1) 预测边界框 𝑃 与真实框 𝐺 之间没有重叠（即 ∣ P ∩ G ∣ = 0 |P \cap G| = 0 ∣P∩G∣=0 或者 (2) 或者框 𝑃 完全包含框 𝐺 或反之亦然（即 ∣ P ∩ G ∣ = P or G |P \cap G| = P\text{ or }G ∣P∩G∣=P or G ). 另外，这两种情况对于微小物体来说非常常见，具体来说，一方面 𝑃 几个像素的偏差就会导致 𝑃 和 𝐺 没有重叠，另一方面微小物体很容易被错误预测，导致 ∣ P ∩ G ∣ = P or G |P \cap G| = P\text{ or }G ∣P∩G∣=P or G. 因此，IoU-Loss 并不适合用于微小物体检测。虽然 CIoU 和 DIoU 可以处理上述两种情况，但由于它们都是基于 IoU，因此对微小物体的位置偏差很敏感。为了处理这些问题，我们将 NWD 指标设计为损失函数，其方式如下：
L N W D = 1 − N W D ( N p , N g ) , \mathcal{L}_{NWD} = 1 - NWD(\mathcal{N}_p, \mathcal{N}_g), LNWD=1−NWD(Np,Ng),(9)

其中 N p \mathcal{N}_p Np 是预测框 𝑃 的高斯分布模型， N g \mathcal{N}_g Ng 是真实框 𝐺 的高斯分布模型。根据 3.2 节的介绍，基于 NWD 的损失即使在 ∣ P ∩ G ∣ = 0 |P \cap G| = 0 ∣P∩G∣=0 和 ∣ P ∩ G ∣ = P or G |P \cap G| = P\text{ or }G ∣P∩G∣=P or G 两种情况下都可以提供梯度

4 实验

我们在 AI-TOD[29] 和 VisDrone2019[4] 数据集上评估了所提出的方法。消融研究是在 AI-TOD 上进行的，这是一个专为微小物体检测而设计的具有挑战性的数据集。它有八个类别，28,036 张 800 × 800 像素的航拍图像中有 700,621 个物体实例。AI-TOD 的平均绝对大小仅为 12.8 像素，比其他物体检测数据集小得多，例如 PASCAL VOC（156.6 像素）[5]、MS COCO（99.5 像素）[16] 和 DOTA（55.3 像素）[31]。此外，VisDrone2019[4] 是一个用于物体检测的无人机数据集。它由 10,209 张图像组成，分为 10 个类别。 VisDrone2019 场景复杂，由于图像是在不同地点、不同高度拍摄的，因此包含大量微小物体。

我们采用与 AI-TOD 数据集相同的评估指标，包括 AP、AP@0.5、AP@0.75、AP@vt、AP@t、AP@s 和 AP@m。具体来说，AP 是不同 IoU 阈值的平均 mAP，IoU={0.5,0.55,...,0.95}，AP@0.5 和 AP@0.75 分别是 IoU 阈值为 0.5 和 0.75 时的 AP。此外，AP@vt、AP@t、AP@s 和 AP@m 分别用于 AI-TOD[29] 中的极小（2-8 像素）、极小（8-16 像素）、小（16-32 像素）和中等（32-64 像素）尺度评估。

所有实验均在配备 4 个 NVIDIA Titan X GPU 的计算机上进行，实验所用代码基于 MMdetection [3] 代码库。除非另有说明，否则使用 ImageNet [23] 预训练的 ResNet-50 [8] 和 FPN [14] 作为主干。所有模型均使用 SGD 优化器训练 12 个epochs，momentum为 0.9，权重衰减为 0.0001，批量大小为 8。我们将初始学习率设置为 0.01，并在第 8 和第 11 个时期将其衰减 0.1 倍。此外，RPN 和 Fast R-CNN 的批量大小分别设置为 256 和 512，正样本和负样本的采样率设置为 1/3。 RPN 生成的建议数量设置为 3000。

在推理阶段，我们使用预设分数 0.05 来过滤背景边界框，并使用 IoU 阈值 0.5 应用 NMS。除非另有说明，所有实验均使用上述训练和推理参数。

4.1 与其他基于 IoU 的指标的比较

如第 2 节所述，有一些基于 IoU 的指标可用于测量边界框之间的相似性。在这项工作中，我们在同一个基础网络（即 Faster R-CNN）上重新实现了上述四个指标（即 IoU、GIoU、CIoU 和 DIoU）和我们提出的 NWD，以比较它们在微小物体上的性能。具体来说，它们分别应用于标签分配、NMS 和损失函数。在 AI-TOD 数据集上的实验结果如表 1 所示。

表 1：标签分配、NMS 和损失函数中不同指标的比较。

标签分配对比。注意RPN和R-CNN分配模块的指标均有修改，可以看出NWD的AP最高达到了16.1%，AP@t相比IoU指标提升了9.6%，说明基于NWD的标签分配可以为微小物体提供更多高质量的训练样本。另外，为了分析改进的本质，我们进行了统计实验，分别计算了在相同默认阈值下，使用IoU、GIoU、DIoU、CIoU、NWD时，每个gt box匹配的正anchor的平均数量，分别为0.72、0.71、0.19、0.19、1.05，可以发现只有NWD才能保证相当数量的正训练样本。此外，虽然简单地降低基于 IoU 的指标的阈值可以为训练提供更多的正向锚点，但基于 IoU 的微小物体检测器在阈值微调后的性能并不优于基于 NWD 的检测器的性能，这将在补充材料中进一步讨论。这归因于 NWD 可以解决 IoU 对微小物体位置偏差的敏感性。

NMS 比较 。由于只有 RPN 中的 NMS 才能直接影响检测器的训练处理，因此我们在本实验中仅修改了 RPN 的 NMS 模块。可以看出，在训练过程中使用不同的指标来过滤掉冗余预测也会影响检测性能。具体来说，NWD 实现了 11.9% 的最佳 AP，比常用的 IoU 高 0.8%。这意味着 NWD 是检测微小物体时过滤掉冗余边界框的更好指标。

损失函数比较。请注意，我们在 RPN 和 R-CNN 中都修改了损失函数，这都会影响检测器的收敛。还可以看出，基于 NWD 的损失函数实现了最高的 AP，为 12.1%

4.2 消融研究

本节以 Faster R-CNN [21] 为基准，包含两个阶段：RPN 和 R-CNN。我们提出的方法既可以应用于 RPN 和 R-CNN 的标签分配、NMS、损失函数模块，因此共有六个模块可以从 IoU 度量切换到 NWD 度量。为了验证我们提出的方法在不同模块中的有效性，我们进行了以下两组消融研究：将 NWD 应用于六个模块之一的比较和将 NWD 应用于 RPN 或 R-CNN 的所有模块的比较。

将 NWD 应用于单个模块。实验结果如表 2 所示。与 baseline 方法相比，RPN 和 R-CNN 中基于 NWD 的分配模块分别实现了最高和第二高的 AP 提升，分别为 6.2% 和 3.2%，这表明 IoU 导致的微小物体训练标签分配问题最为明显，而我们提出的基于 NWD 的分配策略大大提高了分配质量。还可以观察到，我们提出的方法在 6 个模块中的 5 个模块中提高了性能，这极大地验证了我们基于 NWD 的方法的有效性。而 R-CNN 的 NMS 性能下降可能是由于默认的 NMS 阈值不是最优的，需要进行微调来提高性能。

表2：NWD应用于单个模块时的消融实验。

将 NWD 应用于多个模块 。表 3 列出了实验结果。在训练 12 个 epochs 时，在 RPN、R-CNN 或所有模块中使用 NWD 时，检测性能均获得显著提升。在 RPN 的所有三个模块中都应用 NWD 时，性能最高，提升了 17.8%。但是我们发现，在六个模块中都使用 NWD 时，与仅在 RPN 中使用 NWD 相比，AP 下降了 2.6%。为了分析性能下降的原因，我们增加了一组实验，对网络进行了 24 个 epoch 的训练。可以看到，性能差距从 2.6% 缩小到 0.9%，这表明在 R-CNN 中使用 NWD 时，网络需要更长的时间来收敛。因此，我们在后续实验中仅在 RPN 中使用 NWD，以更少的时间实现了显著的性能提升

表 3：NWD 应用于多个模块时的消融实验。

4.3 主要结果

为了揭示 NWD 对 TOD 的有效性，我们在微小物体检测数据集 AI-TOD [29] 和 VisDrone2019 [4] 上进行了实验。

AI-TOD 的主要结果。为了验证 NWD 可以应用于任何基于锚点的检测器并提高 TOD 性能，我们选择了五个 baseline 检测器，包括单阶段基于锚点的检测器（即 RetinaNet [15]、ATSS [36]）和多阶段基于锚点的检测器（即 Faster R-CNN [21]、Cascade R-CNN [2]、DetectoRS [20]）。实验结果如表 4 所示。可以看出，当前最先进的检测器的 AP@vt 非常低且接近于零，这意味着它们无法在微小物体上产生令人满意的结果。此外，我们提出的基于 NWD 的检测器分别将 RetinaNet、ATSS、Faster R-CNN、Cascade R-CNN 和 DetectoRS 的 AP 指标提高了 4.5%、0.7%、6.7%、4.9% 和 6.0%。当物体非常小时，性能提升更加明显。值得注意的是，基于 NWD 的 DetectoRS 在 AI-TOD 上实现了最先进的性能（20.8% AP）。图 3 显示了在 AI-TOD 数据集上使用基于 IoU 的检测器（第一行）和基于 NWD 的检测器（第二行）的一些可视化结果。我们可以观察到，与 IoU 相比，NWD 可以显著降低假阴性（FN）。

TOD 应该是指 Tiny Object Detection

表 4：AI-TOD 测试集上基线和 NWD（带*）的定量比较。

图 3：AI-TOD 数据集中基于 IoU 的检测器（第一行）和基于 NWD 的检测器（第二行）的检测结果可视化。绿色、蓝色和红色框分别表示真阳性 (TP)、假阳性 (FP) 和假阴性 (FN) 预测

Visdrone 上的主要结果。除了 AI-TOD，我们还使用包含许多不同场景的微小物体的 VisDrone2019 [4] 来验证基于 NWD 的检测器的泛化能力。结果如表 5 所示。可以看出，基于 NWD 的基于锚点的检测器都比其基线取得了显着的改进。

表 5：VisDrone2019 验证集上基线和 NWD（带*）的定量比较。

5 结论

在本文中，我们观察到基于 IoU 的度量对微小物体的位置偏差很敏感，这极大地降低了微小物体检测性能。为了解决这个问题，我们提出了一种称为归一化 Wasserstein 距离 (NWD) 的新度量来测量微小物体边界框之间的相似性。在此基础上，我们进一步提出了一种基于 NWD 的新型微小物体检测器，通过将 NWD 嵌入到基于锚点的检测器的标签分配、非最大抑制和损失函数中以取代原始的 IoU 度量。实验结果表明，我们提出的方法可以大大提高微小物体检测性能，并在 AI-TOD 数据集上达到最佳水平。

之后我会持续更新，如果喜欢我的文章，请记得一键三连哦，点赞关注收藏，你的每一个赞每一份关注每一次收藏都将是我前进路上的无限动力！！！↖(▔▽▔)↗感谢支持！