Augmentation for small object detection

Abstract

我们对MS COCO数据集上的当前最先进模型Mask-RCNN进行了分析。我们发现小物体的ground-truth与预测的锚框之间的重叠远远低于预期的IoU阈值。我们推测这是由两个因素造成的:(1)只有少数图像包含小物体,(2)即使在包含小物体的每个图像中,小物体也没有足够的出现次数。因此,我们提出对那些包含小物体的图像进行过采样,并通过多次复制粘贴小物体来增强每个图像。

我们评估了不同的pasting augmentation strategies,并最终相对于MS COCO上的方法,在instance segmentation上实现了相对改进9.7%,在小物体的object detection上实现了7.1%的相对改进。

1 Introduction

首先,我们观察到数据集中相对较少的图像包含小物体,这可能会使任何检测模型更多地关注中等和大型物体。其次,小物体所占的面积要小得多,这意味着小物体的位置缺乏多样性。我们推测,当小物体出现在图像的较少探索部分时,这使得物体检测模型很难推广到小物体。

2 Identifying issues with detecting small objects

region proposal network中的每个预测锚框如果它与一个ground-truth的IoU最高,或者对于任何ground-truth,它的IoU超过0.7,将获得正样本标签,这个过程高度偏向于大物体,因为跨越多个滑动窗口位置的大物体通常与许多锚框具有较高的IoU,而小物体可能只与一个IoU较低的锚框匹配。

如表2所列,仅有29.96%的positively matched anchors与小物体配对,而有44.49%的positively matched anchors与大物体配对。从另一个角度来看,这意味着每个大物体有2.54个匹配的锚框,而每个小物体只有一个匹配的锚框。此外,Average Max IoU指标显示,即使是小物体的最佳匹配锚框通常也具有较低的IoU值。小物体的平均最大IoU仅为0.29,而中等和大物体的最佳匹配锚框的IoU值约为其两倍,分别为0.57和0.66。我们通过在图5中展示一些示例来说明这一现象。这些观察结果表明,小物体在计算 region proposal loss,时贡献较少,从而使整个网络偏向于偏爱大和中等物体。

Oversampling and Augmentation

Oversampling: 我们通过在训练过程中对这些包含小物体的图像进行oversampling来解决相对较少包含小物体的图像的问题。这是缓解MS COCO数据集中的问题并提高小物体检测性能的一种简单直接的方法。在实验中,我们变化oversampling rate,并研究oversampling对小物体检测以及中等和大物体检测的影响。

Augmentation: 除了过采样,我们还引入了专注于小物体的数据增强。MS COCO数据集中提供的Instance segmentation masks使我们能够从原始位置复制任何对象,并将其粘贴到不同的位置。在每个图像中增加小物体的数量会增加匹配的锚点的数量。这反过来会提高小物体对训练期间RPN损失函数的贡献。在将对象粘贴到新位置之前,我们对其进行随机变换。我们通过改变物体尺寸±20%进行缩放,并将其旋转±15°。

Copy-Pasting Strategies

有不同的方式可以复制粘贴小物体。我们考虑了三种不同的策略。首先,我们在图像中选择一个小物体,并在随机位置进行多次复制粘贴。其次,我们选择多个小物体,并将每个小物体精确地复制粘贴到任意位置。最后,我们将每个图像中的所有小物体在随机位置多次复制粘贴。在所有情况下,我们使用上述的第三种augmentation设置;也就是说,我们保留原始图像及其augmentation副本。

Pasting Algorithms

在复制粘贴小物体时,有两个要考虑的问题。首先,我们必须决定粘贴的物体是否会与其他物体重叠。尽管我们选择不引入重叠,但我们通过实验证明这是否是一个好的策略。其次,对于粘贴的物体边缘是否执行额外的处理,这是一个设计选择。我们通过实验证明与不进行进一步处理相比,使用不同大小的高斯滤波器对边界进行模糊是否有帮助。

相关推荐
lijianhua_97121 小时前
国内某顶级大学内部用的ai自动生成论文的提示词
人工智能
EDPJ1 小时前
当图像与文本 “各说各话” —— CLIP 中的模态鸿沟与对象偏向
深度学习·计算机视觉
蔡俊锋1 小时前
用AI实现乐高式大型可插拔系统的技术方案
人工智能·ai工程·ai原子能力·ai乐高工程
自然语1 小时前
人工智能之数字生命 认知架构白皮书 第7章
人工智能·架构
大熊背2 小时前
利用ISP离线模式进行分块LSC校正的方法
人工智能·算法·机器学习
eastyuxiao2 小时前
如何在不同的机器上运行多个OpenClaw实例?
人工智能·git·架构·github·php
诸葛务农2 小时前
AGI 主要技术路径及核心技术:归一融合及未来之路5
大数据·人工智能
光影少年2 小时前
AI Agent智能体开发
人工智能·aigc·ai编程
charlee442 小时前
最小二乘问题详解17:SFM仿真数据生成
c++·计算机视觉·sfm·数字摄影测量·无人机航测
ai生成式引擎优化技术2 小时前
TSPR-WEB-LLM-HIC (TWLH四元结构)AI生成式引擎(GEO)技术白皮书
人工智能