无人机拍的小目标看不清？详解SF-YOLO两大黑科技，VisDrone实测mAP提升12.6%

【导读】

在视频监控和无人机任务中，小目标检测一直是个难题，常规目标检测模型往往在这方面表现不佳。为了解决这一问题，本文提出了 SF-YOLO ------一个专为小目标设计的新型YOLO框架。

SF-YOLO通过引入空间信息感知模块，增强对目标与背景差异的理解，同时结合多尺度特征融合策略，提升小目标的识别效果。实验证明，在多个公开数据集上，SF-YOLO在保持低计算成本的同时，达到了与先进模型相当的检测性能。

这篇文章将带你深入了解SF-YOLO的关键设计与性能表现。

目标检测是计算机视觉领域的一项基础任务，其目标是在给定图像中通过绘制边界框来识别并定位感兴趣的目标。近年来，目标检测器模型在自动驾驶、视频监控、无人机（UAV）应用等多个领域得到了广泛应用。特别是在基于视觉的无人机场景中，这些模型能够对不同环境下的目标（包括道路上的车辆、行人及交通标志等）进行监控与识别，为各类任务提供关键支持。然而，小目标检测仍然是一项具有挑战性的问题。当拍摄角度较高时，图像中的许多目标会显得更小，且可能变得模糊或难以区分，如下图所示。

本文提出了一种新型目标检测模型，该模型集成了空间信息感知模块和多尺度特征加权融合技术，命名为SF-YOLO。首先，设计了空间信息感知模块，该模块通过空间到深度操作和大型选择性核模块，保留了小型目标的细粒度特征，并整合了复杂环境中的上下文信息。此外，多尺度特征加权融合策略旨在融合多尺度特征信息，有效处理不同尺度下的语义特征，减少信息丢失并提升小目标检测的鲁棒性。综上所述，主要贡献可概括为：

提出空间信息感知（SIP）模块通过空间到深度操作与大型选择性核模块的结合，从周围环境中提取与目标相关的特征信息，提升特征语义表示能力，并通过使用不同核大小的膨胀卷积动态调整骨干网络的感受。我们设计了新型多尺度特征加权融合策略， SIP模块能够捕获不同尺度下的上下文信息，有效解决不同尺寸物体对背景要求各异的问题。
设计了一种新型多尺度特征加权融合(MFWF)策略，对不同层级的特征图进行加权融合，利用快速规范化融合方法和CARAFE操作，在保持小型物体信息响应和上下文关系的同时，准确区分其重要(MFWF)策略，对不同层级的特征图进行加权融合，利用快速规范化融合方法和CARAFE操作，在保持小对象的Informative响应和上下文关系的同时，准确区分每个特征的重要性并保留详细信息。
广泛的实验表明，提出的方法在三个基准数据集上优于最先进的物体检测器，同时保持较低的计算复杂度。

论文标题：

SF-YOLO: A Novel YOLO Framework for Small Object Detection in Aerial Scenes

论文链接：

ietresearch.onlinelibrary.wiley.com/doi/epdf/10...

相关工作

单阶段与双阶段

物体检测方法可分为两类：单阶段和双阶段方法。单阶段方法（如YOLO系列、SSD和M2det）直接从输入图像中使用单个神经网络预测物体的位置和类别。这使单阶段方法具有更快的检测速度，使其适合实时应用。另一方面，两阶段方法（如R-CNN系列）将目标检测任务分为两个阶段：区域提案生成和目标分类。它们首先生成候选区域，然后进行分类。尽管双阶段方法通常具有更高的准确性，但在运行时间上较慢，这在时间敏感的场景中可能是一个限制。最终，物体检测方法的选择取决于具体应用需求，包括对实时处理的需求与对高精度的需求，以在速度和效果之间取得平衡。

特征融合

特征融合是计算机视觉任务中的重要环节，尤其在物体检测和语义分割中。其目的是有效地将不同层次的特征结合起来，以捕捉细粒度的细节特征和上下文语义信息。特征金字塔网络（FPN）是一种广泛使用的特征融合方法。FPN通过自上而下的路径和横向连接，将低分辨率、高语义特征与高分辨率、低语义特征进行融合。然而，由于自上而下的路径，细粒度细节可能丢失。与仅具有自上而下路径的FPN不同，PAFPN在特征融合过程中添加了自下而上的路径。自下而上的路径将特征信息从较低层传播到较高层。融合高层次和低层次特征信息的特征金字塔网络在一定程度上改善了对小型物体的检测性能。PAFPN通过整合低层信息提升了模型的定位能力，但同时也增加了计算复杂度。BiFPN进一步优化了特征融合。BiFPN结合了自上而下和自下而上的路径，移除了PAFPN中仅有一个输入边的路径，并在同一尺度特征图之间建立了双向连接。它在两个方向上融合相邻层级的特征，使信息能够在不同尺度之间自由且高效地流动。

小型物体检测

物体检测是计算机视觉领域的重要任务，旨在精确定位和识别图像或视频中不同类别的物体。物体检测可以支持多种实际应用，如自动驾驶、无人机监控和智能安全系统。小型物体检测是物体检测中的一个挑战性任务，因为小型物体通常受低分辨率、较小尺寸和尺度变化的影响。多年来，研究人员一直致力于解决这些挑战并改进小目标检测模型。一种常见的方法是通过优化网络架构来提升其特征表示能力。

例如，特征金字塔网络（FPN）及其改进版本如RetinaNet和EfficientDet通过融合不同尺度特征，提升了小型物体的检测性能。此外，部分研究聚焦于设计轻量级网络，如MobileNet和ShuffleNet，以在保持相对较高准确率的同时降低计算复杂度，使其适用于资源受限场景。为了进一步提升模型在小目标检测中的性能，Pham等提出了YOLO-fine模型，通过对YOLOv3结构和特征融合技术的改进，提升了小目标检测的准确性和速度，实现了实时应用并增强了领域适应性。Hu等提出了高效轻量级YOLO（EL-YOLO）模型，以优化小目标检测，利用新架构和损失函数提升航空图像中的准确性。Zhang等提出了YOLO（EL-YOLO）模型，通过优化架构和损失函数提升航空图像中小型目标检测精度。Zhang等提出FFCA-YOLO，该高效检测器采用三个轻量级模块提升遥感数据中小型目标检测性能。其轻量版（LFFCA-YOLO）在保持高精度的前提下进一步优化了速度和资源利用率。

在Coovally平台上汇聚了国内外开源社区超1000+ 热门模型 ，包含YOLOv8、Transformer、ResNet等模型。同时还集成400+公开数据集，涵盖多样本3D检测，图像分类、目标检测、语义分割等场景，一键调用即可投入训练，彻底告别"找模型、配环境、改代码"的繁琐流程！

不仅如此，平台还支持模型文件下载，可灵活嵌入本地应用流程，实现：

"模型即服务，推理即开箱即用。"

对于研究者来说，这降低了上手门槛；对工程团队而言，也为快速验证与产品化部署提供了极大便利。

！！点击下方链接，立即体验Coovally！！

平台链接： www.coovally.com

无论你是算法新手还是资深工程师，Coovally以极简操作与强大生态，助你跳过技术鸿沟，专注创新与落地。访问官网，开启你的零代码AI开发之旅！

研究方法

本文基于基线YOLOv8模型设计了一种新型目标检测器，其网络结构如图2所示。

与之前的YOLO系列相比，YOLOv8通过用C2f模块替换骨干网络中的原始CSP模块，采用具有路径聚合特征金字塔网络（PAFPN）的颈部结构进行高级多尺度特征融合，并采用优化后的解耦检测头，实现了准确性和速度的提升。这种架构有效减少了骨干网络中的参数数量，同时增强了特征表示能力。此外，解耦头设计将分类和定位任务分离，便于任务特定优化，从而在复杂场景（如拥挤或遮挡环境）中实现更高的检测精度和鲁棒性。此外，解耦检测头设计将分类与定位任务分离，便于本节主要聚焦于描述模型整体框架结构，并详细阐述提出的改进方法。这些方法包括新型空间信息感知模块及多尺度特征加权融合策略。

首先，我们在后处理模块中设计了一个空间信息感知模块，该模块位于每个卷积层的末端，通过一系列大核卷积实现不同大小物体的感受野，从而有效参考小型物体的长距离上下文信息，并从周围背景环境中充分提取其特征的有价值线索，以提升小型物体识别的准确性。其次，在我们的模型中，颈部组件采用了一种新型多尺度特征加权融合策略，通过结合快速规范化融合和上采样方法，全面保留小对象的详细信息和上下文关系，有效处理不同尺度的语义特征并减少信息丢失。

空间信息感知模块

在航空图像中，大多数目标尺寸较小，且存在遮挡、尺度剧烈变化等特点。仅依靠外观特征难以实现精准的目标检测。背景中丰富的上下文信息有助于理解目标所处的环境背景和场景语义，并为目标的边缘和形状提供额外线索。不同类型的目标对背景信息的依赖程度存在差异。YOLO框架缺乏有效整合空间上下文信息并从背景中提取重要线索的能力，这一局限性阻碍了航空图像中小目标的检测。在YOLO模型的骨干网络中，采用了大步长卷积。然而，当图像分辨率较低或目标尺寸较小时，这些大步长卷积可能导致信息丢失和特征学习效率低下，从而降低模型的检测性能。

为解决这些问题，我们提出了空间信息感知（SIP）模块（如图3所示），其目的是有效保留小目标的细粒度特征，并整合来自目标背景的上下文信息。 SIP模块融合了空间到深度（SPD）操作和大型选择性核（LSK）模块。

改进的特征融合方法

特征融合旨在结合不同层级的特征信息，以利用各层级特征的优势，从而得到更全面、丰富的特征表示。小目标通常分辨率较低，这就需要对其特征的重要性进行差异化处理。不同层级的信息对小目标整体特征的贡献存在差异，但现有的特征融合方法在融合过程中并未对不同层级的特征加以区分。这可能会导致小目标检测能力下降，进而影响检测精度。此外，在小目标检测任务中，小目标往往分辨率低且缺乏细粒度特征，而这些特征可通过上采样方法得到增强。传统的上采样方法通常只是对原始像素进行重新分布，并未利用更丰富的特征信息进行更精准的重构。这会导致上采样后的图像在精度和清晰度上有所损失，无法准确恢复细节和边缘信息。

为解决这些问题，我们提出了一种新的多尺度特征加权融合策略，称为MFWF，如下图所示。

实验与结果

实验设置

超参数设置

本研究的实验设置使用了配备24 GB内存的NVIDIA GeForceRTX 4090 GPU。在训练过程中，输入图像尺寸设置为640 × 640，初始学习率设置为0.01，动量值设置为0.937。我们对模型进行了200个 epoch 的训练，并在最后十个epoch 中禁用了Mosaic 操作。训练采用mini-batch 随机梯度下降（SGD）算法，批量大小为八。我们采用早期停止策略，耐心值设为50以防止过拟合。YOLOv8包含五个模型：YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x。这些模型在深度和宽度上逐渐增加，而其他结构保持不变。较大的模型可提供更精确的预测结果。然而，为了加快训练速度，我们选择了 YOLOv8n模型，其深度和宽度值分别为0.33 和 0.25。这一选择在模型复杂度与训练速度之间实现了平衡。

数据集

我们使用VisDrone2019、Tiny-Person 和PESMOD数据集评估所提SF-YOLO目标检测模型的性能。VisDrone2019数据集是一个综合性基准数据集，旨在促进无人机技术与视觉感知技术的融合。该数据集包含多种场景，涵盖不同地理位置（来自中国14个不同城市）和复杂背景（包括城市和农村地区）。数据集涵盖十类目标，包括行人、人群、汽车、卡车、公交车、货车、摩托车、自行车、带遮篷的三轮车和三轮车。值得注意的是，该数据集通过多种不同型号的无人机平台在各种场景、天气条件和光照条件下采集，因此包含大量小型和微型物体。数据集中的物体尺寸范围为 12-4002 像素，不同尺度下物体尺寸分布不均。该数据集被划分为训练集、验证集和测试集。训练集包含6471张图像，验证集包含548张图像，测试集包含3190张图像。这些图像由于采用无人机视角，在

拍摄角度、物体尺度、背景及天气条件等方面存在差异。Tiny--Person数据集专门针对小型物体检测，包含大量小型物体样本。该数据集包含沿海地区行人场景的图像，重点在于小型物体的检测。主要展示了海上和海滩场景中的人员，由于拍摄角度较高且距离较远，图像中人员的分辨率通常较低，物体往往包含少于20个像素。该数据集在长距离和复杂背景中检测微小物体方面具有挑战性。它包含总计1610张图像，其中794张属于训练集，816张属于测试集。这些图像主要由无人机拍摄，并分为两个子集：海面人群子集和陆地人群子集。PExel小型移动物体检测（PESMOD）数据集是一组高分辨率航拍照片，其中移动物体已通过人工标注进行精细标记。该数据集旨在提供一套独特且具有挑战性的图像集用于评估移动物体检测方法，其中仅包含一个物体类别：运动。对于每个帧，每个移动物体均按照PASCAL VOC标准进行标注，标注信息记录在XML文件中。该数据集包含八个独立序列：Elliot-road、Miksanskiy、Shuraevtrekking、Welton、Marian、Grisha-snow、Zaborski和Wolfgang。整个数据集包含4107张图像，分布情况如下： Elliot-road包含664张图像，Miksanskiy包含729张图像，Shuraev-trekking包含400张图像，Welton包含470张图像，Marian包含622张图像，Grisha-snow包含115张图像，Zaborski包含582张图像，Wolfgang包含525张图像。

实验结果

在本次实验中，我们使用VisDrone2019数据集对改进模型的性能进行了评估。我们将SF-YOLO模型与一系列最先进的目标检测模型进行了比较。我们提出的SF-YOLO模型在效率和性能上的显著优势在与其他经典模型比较时显而易见。我们基于精度、召回率、mAP0.5和mAP0.5∶0.95等指标评估了模型在检测小型物体方面的优越性。根据表1和表2的结果，我们可以观察到，我们提出的模型在检测小型物体方面优于其他检测模型。基线模型YOLOv8n与SF-YOLO的检测结果比较如图5所示，这直观地表明改进后的模型能够检测到更多小型物体。

如表1所示，SF-YOLO在验证集上实现了mAP0.5为43.2%，比YOLOv8n高出7.5%，比YOLOv8s高出1.2%。在召回率方面，SF-YOLO达到42.4%，比YOLOv8n的35.5%提高了6.9%。与 YOLOv6n 相比，SF-YOLO 将验证集 mAP0.5 提高了 12.6%，而YOLOv6n 仅达到 30.6%。在验证集上，HIC PDWT-YOLO 的 mAP0.5 为 41.3%，同样低于SF-YOLO，其 mAP0.5∶0.95 结果仅为 23.2%。此外，SF-YOLO 在验证集上的召回率达到42.4%，比 YOLOv6n 的 31.5% 高出 10.9%。与YOLOv7-tiny相比，SF-YOLO将验证集mAP0.5提升了6.5%，而YOLOv7-tiny的mAP0.5为36.7%。

SF-YOLO实现了mAP0.5为36.2%，较YOLOv5s提升3.8%，较基线模型YOLOv8n的29.4%提升6.8%。这使SF-YOLO能够在参数数量较少的情况下实现高整体检测精度，使其在资源受限环境中特别有效。

在Tiny--Person数据集的比较实验中，如表4所示，SF-YOLO在两个物体类别中均在mAP0.5指标上表现优异。具体而言，SF-YOLO在'sea_person'类别中实现了23.5%的mAP0.5，超越了YOLOv8n的19.6%和YOLOv5s的22.2%。在'earth_person'类别中，SF 总体而言，SF-YOLO在准确率和两个物体类别的检测方面均处于领先地位，展现了其在特定应用场景中的优势。本分析表明，SF-YOLO在复杂性、准确性和实时性能之间实现了理想平衡，提升了其适用性并确保在资源受限环境中高效执行复杂检测任务，使其适用于各种实际应用。

综上所述，SF-YOLO在Tiny--Person数据集上的实验结果表明，其在小型目标检测领域具备竞争优势。凭借更高的检测精度和更低的参数数量，SF-YOLO为实际应用提供了稳健的解决方案，尤其在需要高精度物体检测的场景中。

表5展示了不同检测模型在PESMOD数据集上的比较结果，特别关注关键指标如验证集上的mAP0.5和mAP0.5∶0.95。SF-YOLO 实现了最高的 mAP0.5 值为 94.9%，优于 YOLOv7-tiny 的 93.9%和 LeYOLO-n 的 82.9%。在验证集上的 mAP0.5∶0.95 指标方面，SF-YOLO 也表现优异，达到 73.4%，超过 YOLOv8s 的 72.7% 和 YOLOv5s 的 71.2%。值得注意的是，基线模型 YOLOv8n（参数数为 3.01M）在验证集上实现了mAP0.5 为 86.6%，这一成绩虽可观但仍不及SF-YOLO。这一差距反映了 SF-YOLO 在资源消耗与性能之间的优异平衡。因此，SF-YOLO在保持低复杂度的同时实现了卓越的检测性能，使其特别适合资源受限的环境。该模型在复杂度、准确性和实时性能之间实现了理想平衡，为各种实际应用场景提供了有效的解决方案。

消融实验与分析

为评估SF-YOLO目标检测模型的性能提升效果，我们在VisDrone2019数据集上进行了消融实验，并与基线模型进行了对比。

在VisDrone2019数据集的消融实验中（如表6所示），我们逐步引入不同模块以评估其对模型性能的影响，从而得出深入见解。这些模块包括基线模型YOLOv8、空间信息感知（SIP）模块和多尺度特征加权融合（MFWF）策略，并针对验证集和测试集均进行了分析。

结论

本文提出了一种新型小型目标检测器，名为SF-YOLO，旨在提升小型目标的检测准确性和性能。该模型在多个小型目标数据集上取得了显著提升，并与其他先进检测模型进行了对比。SIP模块通过空间到深度操作和大型选择性核模块，从上下文背景中提取空间特征信息，最终在特征图中定位感兴趣区域（ROIs），并在增强的全球特征融合中获得ROIs（感兴趣区域）在特征图中，并在增强的

全局特征融合中获得最佳响应。MFWF模块融合多尺度特征信息，并有效处理不同尺度的语义特征，减少信息丢失。在实验评估中，我们比较并分析了SF-YOLO在多个小型物体数据集上的性能。实验结果表明，SF-YOLO模型在处理复杂场景中的小型目标检测任务时具有优势。未来，我们将继续探索对象检测模型的进一步增强。一个主要重点将是提高模型在各种复杂环境中的适应性，

例如拥挤的城市环境和多样化的自然景观。我们可以加强捕捉详细目标特征的能力，并集成注意力机制模块以提升网络对浅层特征信息的利用效率。此外，我们计划将SF-YOLO与其他小型目标检测方法结合，以进一步提升其性能。这可能涉及利用多尺度特征提取，并融合不同模型输出结果，以增强对遮挡和杂乱场景的鲁棒性。