基于YOLO的小目标检测增强：一种提升精度与效率的新框架

摘要

本文研究并开发了在大规模航拍图像中检测小目标的方法。当前航拍图像中的小目标检测方法通常涉及图像裁剪和检测器网络架构的修改。滑动窗口裁剪以及包括更高分辨率特征图和注意力机制在内的架构增强技术是常用的方法。鉴于航拍图像在各种关键和工业应用中的重要性日益增长，构建鲁棒的小目标检测框架变得势在必行。为满足这一需求，我们采用基础的SW-YOLO方法，通过优化滑动窗口的裁剪尺寸和重叠率来提升小目标检测的速度和精度，并随后通过架构修改对其进行增强。我们提出了一种新颖模型，通过修改基础模型架构来实现，包括在颈部引入用于特征图增强的高级特征提取模块，在骨干网络中集成CBAM以保留空间和通道信息，并引入一个新的检测头以提高小目标检测精度。最后，我们将我们的方法与处理大规模图像最强大的框架之一SAHI以及同样基于图像裁剪的CZDet进行了比较，在精度上取得了显著提升。所提模型在VisDrone2019数据集上取得了显著的精度提升，大幅超越了基线YOLOv5L检测器。具体而言，最终提出的模型将VisDrone2019数据集上的mAP.5:.95精度从YOLOv5L检测器达到的基础精度35.5提升至61.2。值得注意的是，同样应用于该数据集的另一种经典方法CZDet的精度为58.36。本研究展示了显著的改进，实现了精度从35.5到61.2的提升。

https://arxiv.org/abs/2512.07379
关键词： 小目标，航拍图像，滑动窗口，Involution，CBAM。

1 引言

目标检测在人工智能研究，特别是在机器视觉领域，扮演着至关重要的角色。在此背景下，目标检测的主要目标是识别并绘制边界框------一个能够包围物体所有部分同时最小化包含无关背景元素的最佳矩形。这项任务必须在给定场景中所有物体上完成。多年来，该领域取得了显著进展，这得益于数据的快速增长、计算能力的提高以及更复杂AI算法的发展。

目标检测在工业自动化、医学成像、军事监控和安全系统等多个领域具有广泛应用。显著的用途包括身份识别、辅助视觉障碍者进行物体识别以及实现自动驾驶车辆。尽管最新的YOLO版本和基于Transformer的检测器等最新算法取得了令人印象深刻的结果，但它们在航拍图像中的性能仍然不理想，无论是在效率还是精度方面。

航拍图像带来了一些独特的挑战，主要是由于大图像中物体的非均匀分布和小尺寸。这些挑战影响着目标检测算法的训练和推理阶段。具体来说，在大规模航拍图像中检测小目标因图像缩放过程而变得复杂，这是将图像输入目标检测网络的必要步骤。缩放通常会导致图像尺寸显著减小，从而降低了小目标的表观尺寸。因此，特征图的有效性降低，对检测精度产生负面影响。

此外，航拍图像还呈现出额外的复杂性，如密集且重叠度高的小目标、图像内物体尺度多样以及样本不平衡等。这些复杂性进一步加剧了在航拍图像中有效检测物体所面临的挑战。

图 1. 航拍图像挑战示例：(a) 密集且重叠度高的小目标，和 (b) 数据集中物体尺度的广泛范围。

根据 $1$ 提供的更传统定义，尺寸小于32×3232\times3232×32像素的物体被归类为小目标，而不考虑输入图像的大小。

基于上述考虑，本研究所进行的活动总结如下：

评估SAHI $2$ 参数并针对所研究的数据集进行优化以提升性能。在分析各参数结果后，确定了本研究中所用数据集的最佳设置。

评估了CZDet $3$ 方法作为基线方法，并检验了在训练和推理阶段应用超分辨率技术的影响。

最后，分析了SW-YOLO $4$ 基础模型，并对其头部、颈部和骨干组件进行了改进。这些增强措施提高了本研究中提出的基础模型和最终模型的精度。

本文首先对现有工作进行全面回顾，总结了本研究中识别出的挑战------小目标检测和大规模图像分析的现有方法。随后，讨论转向SAHI参数优化，并进行了深入分析。还分析了改进CZDet框架的努力。详细、逐步地说明了应用于SW_YOLO的增强措施。最后，报告并比较了所检查方法的精度和速度，展示了应用于VisDrone数据集的创新成果。

2 相关工作

基于进行的调查，针对本研究两个主要挑战------小目标尺寸和大图像尺度------的解决方案可分类如下。虽然本研究最初分别考察了每个挑战的解决方案，但最终提出的框架和方法灵感来源于整合两个挑战的解决方案。

图表 1. 航拍图像中小目标检测领域现有通用方法回顾。

2.1 小目标检测

小目标检测的解决方案可分为三大类：网络架构、预处理和后处理方法，以及边界框优化技术。本节回顾了在这些领域进行的研究，以评估它们在应对小目标检测挑战方面的有效性。

网络架构。 多尺度目标检测方法主要分为四类：图像金字塔、预测金字塔、集成特征和特征金字塔 $5$ 。

图像金字塔 使用不同尺度的图像作为网络输入进行目标检测和识别。

预测金字塔 涉及利用不同尺度的特征图进行预测。

集成特征 基于融合多个尺度的特征图得到的单一特征图进行预测。

特征金字塔 融合了预测金字塔和集成特征的方法，提取多维度、多尺寸的信息进行预测任务。

图 2. 多尺度特征学习的四种范式。左上：图像金字塔；右上：预测金字塔；左下：集成特征；右下：特征金字塔。

最早的多尺度检测改进之一是YOLOv3 $6$ 引入的，它采用了预测金字塔来增强跨尺度的检测。TridentNet $7$ 通过采用多分支检测方法进一步推进了这一概念，结合了图像金字塔和特征金字塔。TridentNet不依赖多个输入图像，而是利用并行分支生成不同尺度的特征图，提高了检测性能。

几项研究探索了修改网络架构以增强小目标检测。在 $8$ 中，引入了一种新颖的检测头来生成更高分辨率的特征图，以及在骨干网络末端集成了一个注意力机制。这种方法在保留关键空间信息的同时减少了计算开销。此外，还提出了一种新的损失函数以提高检测精度。类似地，在 $9$ 中，探索了对YOLO架构的修改，将传统的四个检测头替换为基于Transformer的检测头（Transformer Prediction Head，TPH）。这种自注意力机制优化了预测精度，同时采用了卷积块注意力模块（CBAM）来强调密集场景中的关键区域。该研究还利用了数据增强、多尺度评估和模型集成来进一步提高检测性能。TPH-YOLOv5架构（如下图所示）增强了VisDrone2021数据集的微小目标检测。

图 3. TPH-YOLOv5 架构 $10$ 。

尽管额外检测头有优势，但其计算和内存开销仍然是一个挑战。为解决此问题，TPH-YOLOv5++ $11$ 引入了CATrans模块，作为多个检测头的替代方案，在保持计算效率的同时保留了高层特征信息。类似地，在HIC-YOLO框架 $8$ 中，提出了重新设计的检测头与骨干网络中的CBAM模块相结合，以增强小目标检测精度。另一项研究 $12$ 通过对YOLOv5s进行结构修改，用BiFPN $13$ 替换颈部中的PANet $13$ ，并提出了一种针对小目标检测的新损失函数。此外，在 $14$ 中，通过将瓶颈块集成到骨干网络中来提高检测精度，使其能够更好地从浅层提取特征。该研究还引入了重新设计的检测头以及其他架构优化，以进一步增强小目标检测。

这些方法共同突显了目标检测领域的持续进步，特别是在通过架构修改、注意力机制和优化策略改进小目标识别方面。

特征融合与增强。 改进小目标检测特征提取的关键进展之一是使用特征融合网络，如FPN $15$ 。FPN提高了特征图的质量，并被用作许多检测架构中的颈部组件。FPN的增强版本，如PAFPN $13$ 、NasFPN $16$ 和ImFPN $17$ ，专注于进一步改进特征融合。在 $18$ 中，引入了一种新颖的高分辨率（HR）块用于有效特征融合。在该块中，每层应用具有不同核大小的卷积操作，生成融合了强语义信息和不同尺度细节的特征图。然后融合这些特征图以增强小目标检测。此外， $19$ 提出了一种专门针对航拍图像中小目标检测的方法，旨在增加来自特征图浅层的语义信息。

Gold-YOLO $20$ 利用聚集-分发（Gather-and-Distribute）机制，通过融合多尺度特征图来提高精度。该机制从所有主层次聚集全局信息，将其组合，然后返回到每个层次以改进检测。其他研究，如PPYOLO $21$ 和PPYOLOE $22$ ，专注于通过修改颈部组件和优化特征图融合策略来提高精度。

下图说明了用于小目标检测的各种特征提取方法之间的差异。此图清晰地展示了包括FPN、PAFPN等特征融合网络在内的所提技术，突出了它们在提高检测精度方面的独特方法和有效性。

图 4. 常见的特征融合路径 $11$ 。

2.2 大规模图像

已经提出了几种处理大规模图像和改进小目标检测的方法。这些方法包括滑动窗口方法、密度图方法和聚类方法。

滑动窗口。 滑动窗口方法将图像分割成重叠的切片，然后由目标检测网络处理。所有切片的结果被组合以产生最终的检测输出。虽然这种方法提高了精度，但它显著增加了计算时间，使其不太适合实时应用。SAHI $23$ 框架是该领域一个强大而有效的工作，主要关注滑动窗口技术，该技术可在训练和推理阶段使用。此外，研究 $47$ 提出了一个框架，与现有方法相比，优化了计算成本并减少了推理时间。在该研究中，切片尺寸与输入图像大小相关，使得切片数据的模型参数能够与主数据集保持一致的比率。已经开发了几种基于平铺（tiling）的方法来增强目标检测，特别是在具有挑战性的场景中的小目标检测。例如，EdgeDuet框架 $24$ 利用一系列关键步骤，包括切片级并行，通过解压不包含小目标的块并通过重叠平铺优化检测，从而更有效地处理视频帧。此外，另一项研究 $25$ 专注于从微型飞行器使用高分辨率图像检测行人和车辆，采用平铺方法，在训练和推理阶段都提高了精度。该方法有效地减少了细节丢失，同时确保模型接收到固定大小的输入，展示了在VisDrone2018数据集上使用Nvidia Jetson TX1和TX2等平台的性能显著提升。这些技术反映了目标检测领域正在进行的创新，旨在克服传统处理方法的局限性。

密度图。 该方法生成密度图以识别图像中物体高度集中的区域。基于这些密度区域确定切片，并在每个切片上执行目标检测。与滑动窗口方法相比，密度图方法降低了计算成本，同时仍能实现有效的目标检测。 $26$ 中引入的对象激活网络使用图像切片输出对象激活图，仅处理对象密度超过某个阈值的切片以优化计算效率。

聚类。 另一种检测大规模图像中小目标的方法是聚类。 $3$ 的一项研究提出了一种基于聚类的方法来识别图像中的密集区域，称为"密集区域切片"。这些区域被单独处理以提高小目标检测精度。此外，像ScaleNet和PP这样的模块确保了跨物体尺度的一致性。GLSAN $27$ 框架被开发用于增强密集区域的小目标检测。它包括三个主要模块：用于通用和局部目标检测的GLDN、使用K-means聚类密集区域的SARSA，以及在将区域传递给检测网络之前改进SARSA识别区域质量的LSRN。

一个值得注意的基于聚类的方法是 $28$ 中引入的聚类检测（ClusDet）网络，它解决了在航拍图像中检测小的、稀疏的、非均匀分布物体的挑战。ClusDet将对象聚类和检测统一到一个端到端的框架中。它包括一个识别对象聚类区域的聚类提议子网络（CPNet）、一个为这些区域估计对象尺度的尺度估计子网络（ScaleNet）以及一个专用的检测网络（DetecNet）。该方法通过仅关注预测的聚类区域，显著减少了最终目标检测所需的图像切片数量，从而优化了计算效率。此外，ClusDet中基于聚类的尺度估计相比于基于单物体的方法提高了小目标检测的精度，并且DetecNet利用这些聚类区域内的上下文信息来提升整体检测精度。

进一步细化聚类目标检测， $29$ 的一项研究提出了一种改进的聚类切片选择方案。该方法通过更有效地识别"聚类切片"------密集物体区域------并对它们应用细粒度检测器，从而提高了航拍图像中的检测性能。

在下一章中，将介绍本研究的一般概念，并详细说明用于比较的经典实现方法。此外，还将讨论SAHI参数的优化，以评估其性能与最终结果的对比。

3 方法论

3.1 SAHI参数优化

切片辅助超推理（Slicing Aided Hyper Inference，SAHI）框架旨在通过两个主要流程改善大规模图像中的小目标检测：模型训练和推理。

模型训练： 在训练过程中，图像被分割成具有特定尺寸和重叠率的切片，以便更好地利用预训练模型。这种方法有效地增加了训练图像的数量，提高了模型的精度。

推理： 在推理阶段，原始图像也被分割成切片，并与完整的原始图像一起通过训练好的网络。为了消除冗余预测，应用了几种合并方法，包括非极大值抑制（NMS）、局部软非极大值抑制（LSNMS）、非极大值合并（NMM）和贪心NMM。这些方法基于置信度和重叠度比较边界框，有助于确保准确的目标检测。

图 5. 使用滑动窗口进行推理 $2$ 。

此外，在后处理中利用交并比（IoU）和自相交比（IoS）度量来提高测试阶段的适应性。

3.2 CZDet改进

现有针对密集区域目标检测的方法通常依赖于分割密集区域或聚类技术，由于需要额外的可训练模块或处理单元，这可能非常耗时。为了解决这个问题，CZDet $3$ 提出了一种解决方案，即检测网络本身识别密集区域，避免了额外的模块。然后以更高的精度重新评估这些识别出的区域，从而提高小目标的检测精度。训练和推理流程如图6所示。

分析显示，无论是包含在数据集中还是在推理期间重新处理，标记为"cut"类输出的图像，其尺寸通常比原始图像显著减小。检测网络通常在平均800×800800\times800800×800像素的图像上进行训练，而"cut"图像可能只有大约200×250200\times250200×250像素。因此，这些图像需要调整大小以满足网络的输入要求。传统的调整大小，通常通过插值完成，会降低图像质量，导致模糊和关键细节丢失。

图 6. CZDet中的训练和推理流程 $3$ 。

为了抵消这一点，最初的解决方案涉及引入超分辨率网络架构来提升图像质量。SR网络旨在从低分辨率对应物生成高分辨率图像。将SR模块集成到网络架构中以支持训练和测试：

训练阶段： "Cut"图像通过SR模块处理以生成更高质量的版本，然后用于训练网络。然而，这种增强显著延长了训练时间。

测试阶段： 在测试期间，检测网络预测为"cut"类的图像在重新进入检测网络之前会经过SR处理。为了优化这个过程，使用了专门在目标数据集上训练的SR模型，将低分辨率图像转换为高分辨率版本。这种方法通过在训练和测试阶段提高图像分辨率来增加小目标的检测精度。

图 7. 超分辨率模块。

3.3 SW-YOLO增强

SW_YOLO $4$ 提出了一种高效的无人机目标检测框架，解决了密集集群、重叠物体和尺度多样性等挑战。他们的方法使用统一的切片窗口方法，将输入图像分割成更小的补丁以检测小目标，同时保持效率。该框架包括对完整图像的全局检测和对子补丁的局部检测，以处理不同尺度的物体。尺度过滤机制将物体分配给适当的检测任务以保持尺度不变性。此外，该方法使用随机锚框裁剪进行数据增强，用多样化的场景丰富了训练数据。

两种定制的增强模拟了具有密集物体集群的真实世界场景，特别有助于检测稀有类别。综合实验表明，与其他方法相比，该方法以更低的计算成本显著提高了检测性能。SW_YoLO工作流如图所示。该框架作为评估我们提出方法的基线。

图 8. SW_YOLO工作流程 $4$ 。

本研究引入了对YOLO架构的几项增强，专门针对小目标检测进行了优化。受 $8$ 启发，这些改进旨在提高精度和计算效率，主要在三个层面上实现：添加新的小目标检测头，集成卷积块注意力模块（CBAM），以及利用Involution块进行高级特征提取。基础的yoloV5架构如图9所示。这些架构修改集成到YOLOv5基础模型中，最终增强的YOLOv5架构如图14所示。

图 9. yoloV5架构概述 $30$ 。

1. 为小目标添加新的检测头

研究表明，提高特征图的分辨率可以增强小目标检测精度。为了利用这一点，除了YOLO中用于检测小、中、大物体通常使用的典型特征图（P3、P4和P5）之外，本框架还包含了一个额外的高分辨率P2层（160x160像素）。添加的P2层捕获更详细的特征，使其非常适合精确检测小物体。

图 10. 添加新头部后的YOLO网络结构。

2. CBAM注意力机制

为了优先处理关键的空间和通道信息，在骨干网络的尾部集成了CBAM模块。虽然传统方法通常将CBAM放在网络的颈部，但将其置于骨干网络中由于此阶段特征图尺寸较小（20x20），可以最小化计算开销。CBAM由两个注意力块组成，即通道注意力模块（CAM）和空间注意力模块（SAM），各自针对特征优化的不同方面。

图 11. CBAM架构 $31$ 。

CAM： 该模块通过同时使用平均池化和最大池化聚合空间信息来捕获通道特定的重要性，然后通过一个轻量级神经网络生成通道注意力图。该注意力图对每个通道应用独特的权重，优化了通道特定特征的相关性。

SAM： 在CAM之后，SAM强调关键的空间位置。它利用池化操作来降低维度，并使用一个7x7卷积层来创建空间注意力图，为图像中的关键区域分配更大的权重。

图 12. 在骨干网络中添加新CBAM块。

新添加的块已合并到图像中并以红色高亮显示。

3. Involution块

Involution块取代了传统的卷积层，以优化空间相关特征提取。与固定的卷积滤波器（空间无关）不同，Involution使用动态的、空间特定的滤波器，为图像中的每个位置应用定制的滤波器。这使得网络能够更好地保留位置特定信息。

在Involution块内，为每个像素生成一个唯一的核，并统一应用于所有通道。然后通过卷积将该核与输入特征图组合。最后，一个求和聚合步骤整合相邻像素上提取的特征，保留空间上下文并提高检测精度。

图 13. 在骨干网络中添加新Involution块。

总的来说，这些策略显著提升了YOLOv5的小目标检测能力。通过减少计算负载和提高检测精度，这些增强使得YOLOv5更适合需要高速度和可靠性的工业应用。

图 14. 提出的最终架构。

新添加的块已合并到图像中并以红色高亮显示。

在下一章中，将介绍所使用的数据集，随后展示每个想法的结果，并与先前的方法进行比较。

4 实验结果

4.1 数据集

在本研究中，选择VisDrone-Det2019数据集进行目标检测任务的训练和评估。作为更广泛的VisDrone挑战的一个子集，该数据集专门针对静态图像中的目标检测，包含6,471张训练图像，分辨率从1920x1080到3840x2160不等，代表10个不同的物体类别。值得注意的是，该数据集中约有31.25%的物体被归类为"小"（> 32232^2322），突显了在高分辨率图像中检测较小物体的挑战。

图 15. VisDrone2019数据集的图像示例。

4.2 结果

本节阐明了从基线目标检测模型训练中得出的发现，这些训练旨在为后续实验建立坚实的基础。模型最初在MS-COCO数据集上预训练了300个epoch，批次大小为32。使用COCO指标评估模型性能，特别关注不同交并比（IoU）阈值下的平均精度（AP），从而确保精度度量的一致性。基于YOLO的模型以其单阶段架构为特点，与两阶段模型（如Faster R-CNN，它需要一个额外的区域提议生成阶段）相比，显示出明显更优的推理速度。在各种YOLO架构中，YOLOv5L被确定为主要基线模型，因为它具有强大的性能，在IoU阈值为0.5时实现了47.3%的AP，从而展示了精度和处理速度之间的良好平衡。为了进一步提高小目标检测的精度，实施了SAHI（切片辅助超推理）方法。该方法专注于分割图像以提高检测性能，特别是针对在全帧评估中经常漏检的小目标。使用SAHI评估了各种后处理技术，包括调整重叠率和裁剪尺寸。最佳策略结合了全图像预测和从图像切片派生的预测，显著增强了模型检测小目标的能力，同时所有尺寸物体的总体精度保持在65.1%。然而，这种方法引入了一个权衡，因为处理完整和裁剪图像的复杂性导致推理速度显著降低，从30 FPS降至18 FPS。

通过两个主要策略探索了进一步的改进，目标是优化基线模型。第一个策略涉及使用ImageNet权重对CZDet模型进行预训练，这导致精度显著提高，在验证集上实现了50.5%的AP。然而，在训练期间引入超分辨率（SR）模块意外导致精度下降，AP降至45.2%，并且训练时间增加。这种下降被认为是源于对模糊或低分辨率图像，尤其是在具有挑战性的夜间场景中，噪声的放大。第二个策略集中于通过集成附加模块（特别是卷积块注意力模块（CBAM）和Involution）来改进SW-YOLO模型。选择这些模块是因为它们能够在不施加过多计算负担的情况下增强特征表示。CBAM的注意力机制有助于更好地聚焦于关键的兴趣区域，增强了模型在各种尺度上检测小目标和被遮挡目标的能力。

将CBAM和Involution集成到SW-YOLO架构中，在精度和鲁棒性方面都取得了显著的改进。优化后的SW-YOLO模型在IoU=0.5\mathrm{IoU}=0.5IoU=0.5时实现了52.7%的AP，超越了标准单阶段检测器的性能，同时保持了大约25 FPS的相对稳定的推理速度。精度和速度之间的这种权衡对于广泛应用仍然是有利的，因为SW-YOLO模型有效地平衡了计算效率和增强的检测精度。CBAM和Involution的战略集成使SW-YOLO能够利用详细的上下文信息，最终使其成为需要快速处理和高精度目标检测场景的高度有效选择。

基线SW-YOLO模型最初达到了60.4%的mAP0.5精度。随后对此基础架构应用了各种修改以优化性能。引入Transformer模块------通过在骨干网络中添加C3TR模块并分别添加到每个检测头中------导致了精度和处理速度的降低。此外，本实现中将原始的ViOU损失函数替换为SiOU损失函数；然而，这种替换并未带来精度提升。

进一步的分析检查了单独加入新头部、Involution块和CBAM块的效果。虽然CBAM和Involution块没有提高精度，但它们有助于提高处理速度，分别将基线模型的FPS提高了3.78和2.68。最终，这些模块的集成，加上新的检测头，在保持有竞争力的处理速度的同时实现了精度增益，相对于原始SW-YOLO模型仅降低了3.5个单位。这种增强配置超越了最快的基线检测器，速度提高了0.57个单位，精度提高了1.7倍。

图 16. 各模型精度与速度对比图。

结论

本论文提出了一个针对大规模图像中小目标检测的框架，旨在有效平衡推理速度和精度。该方法采用图像切片技术，通过生成高分辨率图像片段来改进小目标的检测。在训练阶段评估该技术以扩展数据集，并在推理阶段评估以提高检测精度。测试了各种后处理策略以整合这些图像切片，其中IOS和NMS方法产生了最有利的结果。此外，将完整图像与切片图像结合显著提高了精度，特别是对于较大物体。

对于模型选择，基于在VisDrone2019数据集上评估的最新进展，选择了一个高性能基线。为了增强小目标检测，在推理和训练阶段都集成了一个超分辨率网络，提高了包含密集小目标的图像的清晰度。

额外的改进包括将CBAM集成到骨干网络中以聚焦关键的空间和通道特征，同时最小化计算开销。在颈部模块中使用Involution块进一步增强了特征图质量，同时添加了一个额外的检测头以利用更高分辨率的特征图，最终提高了小目标检测性能。