Title: Augmentation for small object detection
Abstract: In the recent years, object detection has experienced impressive progress. Despite these improvements, there is still a significant gap in the performance between the detection of small and large objects. We analyze the current state-of-the-art model, Mask-RCNN, on a challenging dataset, MS COCO. We show that the overlap between small ground-truth objects and the predicted anchors is much lower than the expected IoU threshold. We conjecture this is due to two factors; (1) only a few images are containing small objects, and (2) small objects do not appear enough even within each image containing them. We thus propose to oversample those images with small objects and augment each of those images by copy-pasting small objects many times. It allows us to trade off the quality of the detector on large objects with that on small objects. We evaluate different pasting augmentation strategies, and ultimately, we achieve 9.7% relative improvement on the instance segmentation and 7.1% on the object detection of small objects, compared to the current state of the art method on MS COCO.
Keywords: NONE
题目:用于小物体检测的增强
**摘要:**近年来,物体检测取得了令人印象深刻的进展。尽管有这些改进,但在检测小型和大型物体的性能方面仍然存在显著差距。我们在一个具有挑战性的数据集MS COCO上分析了当前最先进的模型Mask RCNN。我们发现,小ground-truth objects和predicted anchors之间的重叠远低于预期的IoU阈值。我们推测这是由两个因素造成的;(1)只有少数图像包含小目标;(2)即使在包含小目标的每个图像中,小目标也不会出现得足够多。因此,我们建议用小目标对这些图像进行过采样,并通过多次复制粘贴小目标来增强这些图像中的每一个。
**关键词:**无
1.引言
检测图像中的物体是当今计算机视觉研究的基本任务之一,因为它通常是许多现实世界应用的起点,包括机器人和自动驾驶汽车、卫星和航空图像分析,以及医学图像中器官和肿块的定位。物体检测这一重要问题最近取得了很大进展。MS COCO目标检测竞赛排名第一的解决方案。已从2015年的平均精度(AP)0.373提高到2017年的0.525(IoU=.50:.05:.95,这是一个主要的挑战度量。)在MS COCO实例分割挑战的背景下,在实例分割问题中也可以观察到类似的进展。尽管有这些改进,现有的解决方案在小对象方面往往表现不佳,在MS COCO的情况下,小对象的定义如表1所示。小物体和大物体的检测性能差距明显。例如,图 1 列出了在 MS COCO 实例分割挑战赛中排名靠前的参赛作品。在实例分割任务中也观察到类似的问题。例如,请参阅图2中当前最先进的模型Mask RCNN的样本预测,其中该模型错过了大多数小对象。
图 1 :在 MS COCO 实例分割挑战赛的顶级作品中,小物体的 AP 检测指标比大物体低 2-3 倍。
表 1:MS COCO 小型、中型和大型目标的定义。
图 2 : Mask RCNN 的样本预测,其中许多小物体被系统遗漏,尽管它们在合理的 context 中清晰可见。
例如,在数百只鸟中,只有六只被发现。
注释:关于 context ,读者这里找到一个很好的解释,来源: https://zhuanlan.zhihu.com/p/86203866
小物体检测在许多下游任务中至关重要。为了安全部署自动驾驶汽车,有必要在汽车的高分辨率场景照片中检测小型或远处的物体。许多物体,如交通标志或行人,在高分辨率图像上通常几乎看不见。在医学成像中,肿块和肿瘤的早期检测对于做出准确的早期诊断至关重要,而这些元素的大小往往只有几个像素。自动工业检测也可以通过对材料表面可见的小缺陷进行定位,从而受益于小物体检测。另一个应用是卫星图像分析,其中物体,如汽车、船只和房屋,必须进行有效的标注。平均每个像素的分辨率为 0.5-5 米,这些物体的大小也只有几个像素。换言之,随着更复杂的系统被部署在现实世界中,小对象检测和分割需要更多的关注。因此,我们提出了一种改进小目标检测的新方法。
我们通过对包含小物体的图像进行过采样(oversampling)来解决第一个问题。第二个问题是通过在每个包含小对象的图像中多次复制粘贴小对象来解决的。粘贴每个对象时,我们确保粘贴的对象不会与任何现有对象重叠。这增加了小物体位置的多样性,同时确保这些物体出现在正确的上下文中,如图3所示。每个图像中小物体数量的增加进一步解决了少量正匹配锚的问题,我们在第3节中对其进行了定量分析。总体而言,与当前最先进的方法Mask R-CNN相比,我们在MS COCO上实现了9.7%的实例分割相对改进和7.1%的小对象检测相对改进。
图 3 :通过复制粘贴小对象进行人工增强的示例。从这些例子中我们可以看到,在同一图像上粘贴小物件,就很有可能获得周围环境的正确信息。
2.相关工作
目标检测 基于区域的更快卷积神经网络(Faster R-CNN)、基于区域的全卷积网络(R-FCN)和单次检测器(SSD)是物体检测的三种主要方法,它们的区别在于是否以及在何处附加了区域建议。Faster R-CNN及其变体旨在帮助处理各种对象尺度,因为differential cropping会将所有建议合并为单一分辨率。然而,这发生在深度卷积网络中,由此产生的裁剪框可能无法与物体完全对齐,这可能会影响其实际性能。SSD最近被扩展到去卷积单点检测器(Deconvolutional Single Shot Detector,DSSD),该检测器通过解码器部分中的转置卷积对SSD的低分辨率特征进行上采样,以提高内部空间分辨率。类似地,特征金字塔网络(FPN)扩展了具有解码器类型子网络的Faster R-CNN。
实例分割 实例分割超越了对象检测,需要预测每个对象的精确掩码。多任务卷积神经网络(Multi-Task Network Cascades,MNC)构建了预测和掩码细化的级联(Cascades)。全卷积实例感知语义分割(Fully convolutional instance-aware semantic segmentation, FCIS)是一种全卷积模型,可计算出每个感兴趣区域共享的位置敏感分数图。[Semantic instance segmentation via deep metric learning]也是一种全卷积方法,学习像素嵌入。Mask R-CNN[18]用一个用于预测掩码的分支扩展了FPN模型,并为对象检测和实例分割引入了新的differential cropping操作。
小物体检测 小物体可以通过提高输入图像分辨率或通过将高分辨率特征与低分辨率图像的高维特征融合来解决。然而,这种使用更高分辨率的方法增加了计算消耗,并且没有解决大小对象之间的不平衡问题。相反,使用生成对抗性网络(Generative Adversarial Network,GAN)在卷积网络中构建在交通标志和行人检测的背景下无法区分大小对象的特征。(Improving small object proposals for company logo detection)根据区域建议网络中不同的分辨率层使用不同的锚尺度。(Small-objectness sensitive detection based on shifted single shot detector)通过锚框尺寸的正确分数移动图像特征,以覆盖它们之间的间隙。有些论文在裁剪小物体提案时添加context。
3. 识别检测小物体的问题
在本节中,我们首先概述了MS COCO数据集和实验中使用的对象检测模型。然后,我们讨论了MS COCO数据集和训练中使用的锚框匹配过程的问题,这导致了小对象检测的困难。
3.1 MS COCO
我们对MS COCO检测数据集进行了实验。MS COCO 2017检测数据集包含118287张用于训练的图像、5000张用于验证的图像和40670张测试图像。来自80个类别的860001和36781个对象使用人工标注边界框和实例掩膜进行注释。 在MS COCO检测挑战中,主要评估指标是平均精度(AP)。通常,AP被定义为所有召回值的真阳性与所有阳性比率的平均值。因为对象既需要定位又需要正确分类,所以只有当预测的掩膜或边界框的交集和并集(IoU)高于0.5时,正确的分类才算作真阳性检测。AP得分在80个类别和10个IoU阈值之间取平均值,平均分布在0.5到0.95之间。度量还包括在不同对象尺度上测量的AP。在这项工作中,我们的主要兴趣是小物体上的AP。
3.2 Mask R-CNN
对于我们的实验,我们使用来自具有ResNet-50骨干的Mask R-CNN实现,并将线性缩放规则(linear scaling rule)用于设置学习超参数。我们使用的训练周期(training schedule)比[Detectron, https://github.com/facebookresearch/Detectron\]中的基线更短。我们在四台 GPU 上对模型进行了 36k 次迭代训练,基础学习率为 0.01。在优化过程中,我们使用随机梯度下降法,动量设置为 0.9,权重衰减系数设置为 0.0001。在训练过程中,分别经过 24k 和 32k 次迭代后,学习率以 0.1 的系数缩减两次。所有其他参数均与[Detectron]中的基线掩码 R-CNN+FPN+ResNet-50 配置相同。
网络的区域建议阶段在我们的调查中尤为重要。我们正在使用特征金字塔网络(FPN)来生成对象建议。它可以预测与15 个锚框相关的目标建议,这些锚框来自 5 种比例(322、642、1282、2562、5122)和 3 种长宽比(1、0.5、2)。如果锚框相对于任何人工标注框具有高于0.7的IoU,或者如果锚框相对于地面实况边界框具有最高IoU,则锚框接收正标签。
3.3 基于MS COCO 的Mask R-CNN 小目标检测
在MS COCO中,训练集中出现的所有对象中有41.43%是小对象,而中等和大对象分别只有34.4%和24.2%。另一方面,只有大约一半的训练图像包含任何小对象,而70.07%和82.28%的训练图像分别包含中对象和大对象。参见表2中的对象计数和图像。这证实了小物体检测问题背后的第一个问题:小物体的例子很少。
第二个问题只要考虑一下每个尺寸类别的总物体面积就一目了然了。只有 1.23% 的注释像素属于小型物体。中型物体所占的面积是大型物体的 8 倍还多,占总注释像素的 10.18%,而大部分像素(82.28%)都被标记为大型物体的一部分。在此数据集上训练的任何检测器都无法在图像和像素中发现足够多的小物体。
如本节前文所述,如果来自区域提议网络的每个预测锚框具有人工标注边界框的最高IoU,或者如果其对于任何人工标注框具有高于0.7的IoU,则其接收正标签。该过程非常支持大对象,因为跨越多个滑动窗口位置的大对象通常具有许多锚框的高IoU,而小对象可能仅与具有低IoU的单个锚框匹配。如表2所示,只有29.96%的正匹配主播与小物体配对,而44.49%的正匹配锚与大物体配对。从另一个角度来看,这意味着每个大对象有2.54个匹配锚,而每个小对象只有一个匹配锚。此外,正如平均最大IoU度量所揭示的那样,即使是小对象的最佳匹配锚框通常也具有低IoU值。小物体的平均最大IoU仅为0.29,而中型和大型物体的最佳匹配锚的IoU分别高出约两倍,分别为0.57和0.66。我们在图5中通过可视化几个例子来说明这种现象。这些观察结果表明,小对象对计算区域建议损失的贡献要小得多,这会使整个网络偏向于大对象和中等对象。
4. 过采样和增强
过采样(Oversampling) 我们通过在训练期间对包含小对象的图像进行过采样来解决相对较少的图像的问题。这是一种轻松而直接的方法来缓解MS COCO数据集的这一问题,并提高小目标检测的性能。在实验中,我们改变了过采样率,并研究了过采样不仅对小目标检测的影响,而且对检测中大型目标的影响。
增强(Augmentation) 除了过采样之外,我们还引入了专注于小对象的数据集增强。MS COCO数据集中提供的实例分割掩码允许我们从任何对象的原始位置复制任何对象。然后将副本粘贴到不同的位置。通过增加每个图像中小对象的数量,匹配的锚框的数量也会增加。这反过来又提高了小物体在训练过程中对RPN损失函数计算的贡献。
在将对象粘贴到新位置之前,我们对其应用随机变换。我们通过更改对象大小±20%来缩放对象,并将其旋转±15◦.我们只考虑未被遮挡的对象,因为粘贴不相交的分割掩膜,其间有看不见的部分,通常会导致图像不太逼真。我们确保新粘贴的对象不会与任何现有对象重叠,并且距离图像边界至少五个像素。
在图4中,我们用图形说明了所提出的增强策略,以及它如何在训练过程中增加匹配锚的数量,从而更好地检测小物体。
5. 实验设置
5.1 过采样(Oversampling)
在第一组实验中,我们研究了对包含小物体的图像进行过采样的效果。我们在2、3和4之间改变过采样率。为了提高效率,我们离线创建了多个带有小对象的图像副本,而不是实际的随机过采样。
5.2 增强(Augmentation)
在第二组实验中,我们研究了使用增强对小对象检测和分割的影响。我们复制并粘贴每个图像中的所有小对象一次。我们还对小物体的图像进行了过采样,以研究过采样和增强策略之间的相互作用。
我们测试了三种设置。在第一个设置中,我们将每个带有小对象的图像替换为带有复制粘贴的小对象的图片。在第二个设置中,我们复制这些增强图像以模拟过采样。在最终设置中,我们保留原始图像和增强图像,这相当于将带有小对象的图像过采样2倍,同时用更多的小对象增强复制副本。
5.3 复制粘贴策略(Copy-Pasting Strategies)
复制粘贴小对象有不同的方法。我们考虑三种不同的策略。首先,我们在图像中选择一个小对象,并将其复制粘贴到随机位置多次。其次,我们选择许多小对象,并将每个对象复制粘贴到任意位置。最后,我们在每个图像中的随机位置多次复制粘贴所有小对象。在所有情况下,我们都使用上面的第三种增强设置;也就是说,我们保留原始图像和它的增强副本。
5.4 粘贴算法(Pasting Algorithms)
粘贴小对象的副本时,需要考虑两件事。首先,我们必须决定粘贴的对象是否会与任何其他对象重叠。尽管我们选择不引入任何重叠,但我们通过实验验证了这是否是一个好的策略。其次,是否执行附加过程来平滑粘贴对象的边缘是一种设计选择。我们实验了与没有进一步处理相比,具有不同滤波器大小的边界的高斯模糊是否有帮助。
6. 结果与分析
6.1 Oversampling
通过在训练过程中更频繁地对小对象图像进行采样(见表3),可以提高小对象分割和检测方面的AP。在3×过采样的情况下观察到最大的增益,这使小对象的AP增加了1%(对应于8.85%的相对改进)。虽然中等对象尺度上的性能受到的影响较小,但大对象的检测和分割性能始终受到过采样的影响,这意味着必须根据大小对象之间的相对重要性来选择比率。
6.2 Augmentation
在表4中,我们展示了使用所提出的增强和过采样策略的不同组合的结果。当我们用包含更多小对象的副本(第二行)将每个图像替换为小对象时,性能显著下降。当我们将这些增强图像过采样2倍时,对小对象的分割和检测性能恢复了损失,尽管总体性能仍然比基线差。然而,当我们在增强验证集(而不是原始验证集)上对这一模型进行评估时,我们发现小对象增强性能(0.161)提高了 38%,这表明训练有素的模型有效地过度拟合了 "粘贴 "的小对象,但并不一定过度拟合了原始的小对象。我们认为这是由于粘贴过程中产生的人工痕迹,例如不完美的物体遮罩和与背景的亮度差异,而这些对于神经网络来说是比较容易发现的。将超采样与以 p = 0.5(原始+增强)的概率进行增强相结合,原始与增强小物体的比例为 2:1,可获得最佳效果。这种设置比单独过度取样的结果更好,证实了所提出的粘贴小物体策略的有效性。
6.3 Copy-Pasting strategies
复制粘贴单个对象(Copy-pasting of a single object) 在表5中,我们看到复制粘贴单个物体会在小物体上产生更好的模型,但代价是在大图像上的性能会略有下降。这些结果本身也比两次过采样要好。不过,在粘贴一两次后,性能就会达到峰值。添加相同对象的次数越多,性能就越差。
复制粘贴多个对象(Copy-pasting of a multiple object) 从表6中可以看出,每个图像复制粘贴多个小对象比只复制粘贴单个对象更好。在这种情况下,我们看到了每个对象最多粘贴三次的好处。
复制粘贴所有小对象(Copy-pasting of all small objects) 最后,表7列出了每个图像中所有小对象都被复制粘贴的结果。我们发现,在对所有对象进行一次增强时,在分割和检测方面都取得了最佳结果。我们认为这背后可能有两个原因。首先,通过拥有所有小对象的多个副本,原始对象与粘贴的小对象的比例会迅速降低。其次,每个图像中的对象数量成倍增加,这导致训练图像和测试图像之间的不匹配更加严重。
6.4 Pasting Algorithms
如表8所示,在不考虑其他对象已经占据区域的情况下随机粘贴到图像中会导致小图像的性能较差。它证明了我们的设计选择是合理的,以避免粘贴的对象和现有对象之间的任何重叠。此外,粘贴对象边缘的高斯模糊没有显示出任何改善,这表明除非采用更复杂的融合策略,否则最好按原样粘贴对象。
7. 结论
我们研究了小物体检测问题。我们发现,小物体平均精度差的原因之一是训练数据中缺乏小物体的表示。现有的最先进的物体检测器尤其如此,该检测器需要存在足够的物体以供预测锚在训练期间匹配。为了克服这个问题,我们提出了两种策略来扩充原始的MS COCO数据库。首先,我们展示了通过在训练过程中对包含小对象的图像进行过采样,可以很容易地提高小对象的性能。其次,我们提出了一种基于复制粘贴小对象的增强算法。我们的实验证明,与Mask R-CNN在MS COCO上获得的现有技术相比,小对象的实例分割和对象检测分别有9.7%和7.1%的相对改进。实验验证了所提出的一组增强方法在小物体和大物体的预测质量之间进行了权衡。