Augmentation for small object detection

Abstract

我们对MS COCO数据集上的当前最先进模型Mask-RCNN进行了分析。我们发现小物体的ground-truth与预测的锚框之间的重叠远远低于预期的IoU阈值。我们推测这是由两个因素造成的:(1)只有少数图像包含小物体,(2)即使在包含小物体的每个图像中,小物体也没有足够的出现次数。因此,我们提出对那些包含小物体的图像进行过采样,并通过多次复制粘贴小物体来增强每个图像。

我们评估了不同的pasting augmentation strategies,并最终相对于MS COCO上的方法,在instance segmentation上实现了相对改进9.7%,在小物体的object detection上实现了7.1%的相对改进。

1 Introduction

首先,我们观察到数据集中相对较少的图像包含小物体,这可能会使任何检测模型更多地关注中等和大型物体。其次,小物体所占的面积要小得多,这意味着小物体的位置缺乏多样性。我们推测,当小物体出现在图像的较少探索部分时,这使得物体检测模型很难推广到小物体。

2 Identifying issues with detecting small objects

region proposal network中的每个预测锚框如果它与一个ground-truth的IoU最高,或者对于任何ground-truth,它的IoU超过0.7,将获得正样本标签,这个过程高度偏向于大物体,因为跨越多个滑动窗口位置的大物体通常与许多锚框具有较高的IoU,而小物体可能只与一个IoU较低的锚框匹配。

如表2所列,仅有29.96%的positively matched anchors与小物体配对,而有44.49%的positively matched anchors与大物体配对。从另一个角度来看,这意味着每个大物体有2.54个匹配的锚框,而每个小物体只有一个匹配的锚框。此外,Average Max IoU指标显示,即使是小物体的最佳匹配锚框通常也具有较低的IoU值。小物体的平均最大IoU仅为0.29,而中等和大物体的最佳匹配锚框的IoU值约为其两倍,分别为0.57和0.66。我们通过在图5中展示一些示例来说明这一现象。这些观察结果表明,小物体在计算 region proposal loss,时贡献较少,从而使整个网络偏向于偏爱大和中等物体。

Oversampling and Augmentation

Oversampling: 我们通过在训练过程中对这些包含小物体的图像进行oversampling来解决相对较少包含小物体的图像的问题。这是缓解MS COCO数据集中的问题并提高小物体检测性能的一种简单直接的方法。在实验中,我们变化oversampling rate,并研究oversampling对小物体检测以及中等和大物体检测的影响。

Augmentation: 除了过采样,我们还引入了专注于小物体的数据增强。MS COCO数据集中提供的Instance segmentation masks使我们能够从原始位置复制任何对象,并将其粘贴到不同的位置。在每个图像中增加小物体的数量会增加匹配的锚点的数量。这反过来会提高小物体对训练期间RPN损失函数的贡献。在将对象粘贴到新位置之前,我们对其进行随机变换。我们通过改变物体尺寸±20%进行缩放,并将其旋转±15°。

Copy-Pasting Strategies

有不同的方式可以复制粘贴小物体。我们考虑了三种不同的策略。首先,我们在图像中选择一个小物体,并在随机位置进行多次复制粘贴。其次,我们选择多个小物体,并将每个小物体精确地复制粘贴到任意位置。最后,我们将每个图像中的所有小物体在随机位置多次复制粘贴。在所有情况下,我们使用上述的第三种augmentation设置;也就是说,我们保留原始图像及其augmentation副本。

Pasting Algorithms

在复制粘贴小物体时,有两个要考虑的问题。首先,我们必须决定粘贴的物体是否会与其他物体重叠。尽管我们选择不引入重叠,但我们通过实验证明这是否是一个好的策略。其次,对于粘贴的物体边缘是否执行额外的处理,这是一个设计选择。我们通过实验证明与不进行进一步处理相比,使用不同大小的高斯滤波器对边界进行模糊是否有帮助。

相关推荐
king王一帅1 小时前
Incremark Solid 版本上线:Vue/React/Svelte/Solid 四大框架,统一体验
前端·javascript·人工智能
泰迪智能科技3 小时前
分享|职业技术培训|数字技术应用工程师快问快答
人工智能
Dxy12393102165 小时前
如何给AI提问:让机器高效理解你的需求
人工智能
少林码僧5 小时前
2.31 机器学习神器项目实战:如何在真实项目中应用XGBoost等算法
人工智能·python·算法·机器学习·ai·数据挖掘
钱彬 (Qian Bin)5 小时前
项目实践15—全球证件智能识别系统(切换为Qwen3-VL-8B-Instruct图文多模态大模型)
人工智能·算法·机器学习·多模态·全球证件识别
没学上了5 小时前
CNNMNIST
人工智能·深度学习
宝贝儿好6 小时前
【强化学习】第六章:无模型控制:在轨MC控制、在轨时序差分学习(Sarsa)、离轨学习(Q-learning)
人工智能·python·深度学习·学习·机器学习·机器人
智驱力人工智能6 小时前
守护流动的规则 基于视觉分析的穿越导流线区检测技术工程实践 交通路口导流区穿越实时预警技术 智慧交通部署指南
人工智能·opencv·安全·目标检测·计算机视觉·cnn·边缘计算
AI产品备案6 小时前
生成式人工智能大模型备案制度与发展要求
人工智能·深度学习·大模型备案·算法备案·大模型登记
AC赳赳老秦6 小时前
DeepSeek 私有化部署避坑指南:敏感数据本地化处理与合规性检测详解
大数据·开发语言·数据库·人工智能·自动化·php·deepseek