摘要
https://www.mdpi.com/2072-4292/17/4/685
无人机图像中的目标检测在交通安全、应急救援和环境监测等领域具有重要意义。然而,无人机拍摄的图像通常具有多尺度特征、背景复杂、光照不均和目标分辨率低等特点,这使得无人机图像中的目标检测极具挑战性。为了应对这些挑战,本文提出了一种基于YOLOv8的新型模型------SPDC-YOLO。在骨干网络中,该模型移除了最后一个C2f模块和最终的下采样模块,从而避免小目标特征的丢失。在颈部网络中,本文提出了一种新的特征金字塔------SPC-FPN,它使用SBA(选择性边界聚合)模块来融合两个不同尺度的特征。在检测头部分,移除了P5检测头,并提出了一种新的检测头------Dyhead-DCNv4,它用DCNv4替换了原始Dyhead中的DCNv2,并利用三种注意力机制进行动态特征加权。此外,模型采用CGB(上下文引导块)模块进行下采样,该模块能够学习和融合局部特征与周围上下文信息,并使用PPA(并行化补丁感知注意力)模块替换原始C2f模块,以进一步提高特征表达能力。最后,SPDC-YOLO采用EIoU作为损失函数来优化目标定位精度。在公开数据集VisDrone2019上的实验结果表明,与YOLOv8n相比,SPDC-YOLO的mAP50提高了3.4%,同时参数数量减少了1.03 M。与其他相关方法相比,SPDC-YOLO展现出更好的性能。
关键词:无人机影像;YOLOv8;SPC-FPN;DCNv4
1. 引言
近年来,无人机生产成本逐渐降低,自动化与控制技术不断进步,无人机在农业监测[1]、地质勘探[2]、基础设施巡检[3]和智慧城市[4]等领域的应用日益广泛。小目标检测技术在这些任务中发挥着至关重要的作用,特别是在实时监控[5]、目标跟踪[6]和数据分析中,能够快速准确地识别小目标。然而,无人机图像通常从高空拍摄,背景复杂、光照变化大且包含小目标,这使得小目标检测[7]成为一项主要挑战。
深度学习,特别是卷积神经网络(CNN[8])的发展,为小目标检测提供了强大的工具。传统目标检测方法由于依赖手工特征[9]且对复杂场景适应性不足,在小目标检测方面面临困难。相比之下,CNN通过自动学习特征,能有效识别复杂环境中的目标,提高了检测的准确性和鲁棒性。
尽管取得了这些进展,小目标检测仍面临诸如物体尺寸小、图像分辨率有限、背景复杂等挑战。为解决这些问题,人们提出了各种改进方法,例如优化CNN架构、融合多尺度检测以及应用数据增强技术[10]以提高检测精度和速度。多尺度检测[11]能够融合不同尺度的特征,从而有效提高小目标的检测精度。
在目标检测领域,YOLO[12]是一种高效的深度学习范式。该方法将目标检测重新定义为回归任务,通过单次前向传播同时预测物体的空间位置和类别,从而显著提高检测速度。虽然YOLO在大物体检测方面已被证明是有效的,但它在小目标检测方面也取得了显著进展。通过整合多尺度训练和特征融合技术,YOLO显著提高了小目标检测的准确性和鲁棒性,使其成为小物体检测领域中不可或缺的工具。
综上所述,随着无人机技术和深度学习的进步,目标检测,尤其是小目标检测,已成为无人机系统中不可或缺的组成部分,并在各个领域的智能应用中展现出巨大潜力[13]。
本文的主要贡献如下:
- 在骨干网络架构中,移除了最后的C2f模块和下采样模块,并引入CGB[14]模块进行下采样,同时促进上下文特征的融合。同时,用PPA[15]模块替换C2f模块,以增强网络捕获小目标判别性特征的能力;
- 在颈部网络中,提出了一种新的特征金字塔网络SPC-FPN,它利用SBA[16]模块融合不同尺度的特征。对于小物体,浅层特征捕获了丰富的边界细节,而深层特征则包含有价值的语义信息。因此,有效结合浅层和深层特征对于提高检测性能至关重要;
- 在检测头部分,提出了一种新的检测头------Dyhead-DCNv4[17,18],它利用尺度感知注意力、空间感知注意力和任务感知注意力来动态加权和自适应调整特征。此外,移除了原本用于检测大物体的P5检测头,以减少模型的参数量。
本文结构安排如下:第2节回顾了遥感领域目标检测的最新进展。第3节概述了本文提出的用于无人机影像小目标检测的改进模型,详细描述了模型架构及相关模块的工作原理。第4节介绍了实验环境和参数配置,并分析了在VisDrone2019[19]数据集上进行的多项实验结果,如消融实验、对比评估和可视化实验,以评估所提方法的有效性。第5节深入探讨了所提模型如何应对无人机图像目标检测的挑战。最后,第6节对全文进行总结,概括研究结果并讨论未来可能的研究方向。
2. 相关工作
在计算机视觉领域,YOLO凭借其在小物体检测方面的开创性算法、快速处理能力、易于集成和部署,以及其卓越的速度与准确性权衡、多任务潜力和高通用性,已巩固了其在目标检测领域的领导地位。与其他深度学习方法相比,YOLO采用端到端的检测流程并对图像进行全面的单次分析,在速度与精度之间实现了无与伦比的权衡。这使其特别适合需要实时响应的应用,例如自动驾驶和实时监控。
随着技术的不断进步,YOLO不仅保持了其在目标检测领域的领先地位,还通过将多项任务集成到统一的预测框架中,将其能力扩展到其他视觉任务,特别是小物体检测。这种高适应性使YOLO成为众多实际应用的首选。其技术创新和强大性能为推进实时检测技术和解决各种计算机视觉挑战奠定了坚实基础。因此,YOLO网络已成为专业人士寻求高效、准确检测的主要选择,特别是在遥感领域的小物体检测任务中。
2.1. 传统目标检测方法
自21世纪初以来,目标检测在计算机视觉领域快速发展。2014年,Ross Girshick等人提出了R-CNN[20],这是一种开创性的两阶段检测框架。R-CNN的基本方法是通过选择性搜索生成候选区域,然后使用卷积神经网络为每个区域提取特征,最后通过分类器进行分类和回归。尽管R-CNN实现了高精度,但由于需要为每个候选区域单独提取特征,导致处理速度较慢。
在R-CNN的基础上,随后开发了一系列两阶段目标检测算法。2015年,Ross Girshick提出了Fast R-CNN[21],这是R-CNN的增强版本,通过将特征提取和分类结合到一个统一的网络中,提高了效率。Fast R-CNN对整个图像执行一次卷积前向传播,并从共享的特征图中提取候选区域的特征,这显著提高了检测速度。此外,它还引入了边界框回归,使得网络能够直接预测边界框,从而减少了对选择性搜索的依赖。
2015年,任少卿等人提出了Faster R-CNN[22],这是Fast R-CNN的改进版本。它引入了区域提议网络(RPN),替代了选择性搜索,并将区域提议生成与特征提取相结合。这允许同时进行提议和特征提取,显著提高了检测速度和精度。作为第一个实现实时性能的两阶段检测器,Faster R-CNN标志着目标检测效率和有效性的重大进步。
Mask R-CNN[23]是Faster R-CNN的进一步发展,由何恺明等人于2017年提出。它基于Faster R-CNN框架,加入了一个并行的分割分支,用于预测实例分割掩码。除了目标检测和边界框回归外,Mask R-CNN还为每个检测到的物体生成像素级掩码,这对于需要精确物体轮廓的应用(如医学图像分析和遥感)具有显著优势。
Cascade R-CNN[24]由Zhaowei Cai和Nuno Vasconcelos于2018年提出,是一个利用多阶段检测架构的两阶段目标检测框架。每个阶段包含一个独立的检测器,随着过程的推进,匹配正负样本的阈值逐渐严格。这种分阶段细化允许模型迭代改进预测边界框的精度,显著提高了整体检测性能。在遥感图像领域,Cascade R-CNN的迭代方法在提高检测精度方面特别有效,尤其是在小物体检测或背景复杂等具有挑战性的场景中。
SSD(单次多框检测器[25])由刘威等人于2016年提出,是一种著名的一阶段目标检测算法。该模型使用单个深度神经网络分析图像进行检测。SSD的一个关键方面是其对边界框输出空间的离散化,其中一组具有不同宽高比和尺度的默认框被分配到特征图上的每个位置。在推理过程中,网络根据物体类别为每个默认框分配存在分数,并生成调整以更准确地匹配物体的形状,从而提高检测性能,特别是在复杂的遥感环境中。
DenseNet[26]由黄高等人于2017年提出,是一种以密集连接著称的卷积神经网络,其中每一层都与前面所有层相连。这种设计缓解了梯度消失问题,增强了特征传播,并鼓励了特征重用。此外,它显著减少了参数数量,使DenseNet成为一个非常高效的模型,尤其适用于像遥感目标检测这样的任务,其中计算效率和鲁棒的特征提取都至关重要。
2.2. YOLO系列目标检测方法
YOLO[12]算法由Joseph Redmon于2016年首次提出,随后几年经历了多次重大迭代。作为一个单阶段目标检测模型,YOLO将传统复杂的检测流程简化为一个端到端的回归任务,从而显著提高了检测速度------这对实时应用尤其有利。2017年,Redmon提出了YOLOv2,也称为YOLO9000[27],加入了锚框、批归一化和多尺度训练等关键改进,从而提高了检测精度和小物体检测能力。在这些创新的基础上,YOLOv3[28]于2018年推出,它通过集成特征金字塔网络(FPN)和采用更深的骨干架构Darknet-53,进一步提高了小物体检测性能。
2020年,Alexey Bochkovskiy提出了YOLOv4[29],这是YOLOv3的改进版本,融合了CSPDarknet53、Mish激活函数和CIoU损失函数等优化。这些升级显著提高了精度和推理速度。同年,Ultralytics发布了YOLOv5,这是对YOLOv4的进一步改进,旨在优化推理速度和精度,使其在工业应用中得到了广泛采用。2021年,旷视团队推出了YOLOX[30],这是一个采用无锚点方法并利用先进训练策略的高级变体。YOLOX提供了更快的推理速度和更大的灵活性,并保持了高精度,这使其特别适用于广泛的目标检测任务,包括遥感应用中的任务。
2022年,美团提出了YOLOv6[31],专门针对工业应用进行了优化,在推理速度和模型大小方面都有显著增强,使其非常适合大规模部署。同年,Wang Chien-Yao等人提出了YOLOv7[32],这是YOLO系列的又一改进版本。该版本通过整合"Bag-of-Freebies"和"Bag-of-Specials"策略提高了检测精度,同时保持了高推理速度,从而为实时目标检测设定了新的性能基准。2023年,Ultralytics发布了YOLOv8,带来了一系列全面的改进,主要集中在优化网络架构、训练策略、推理速度和整体易用性上。
2024年,Wang Chien-Yao等人提出了YOLOv9[33],它整合了可编程梯度信息(PGI)的概念,并提出了一种名为基于梯度路径规划的通用高效层聚合网络(GELAN)的新型轻量级架构。这一创新旨在提高计算效率和检测精度。同年,清华大学的研究人员进一步优化了模型,提出了YOLOv10[34],它采用了一种非极大值抑制(NMS)自由的训练策略,以有效消除冗余检测框,提高检测精度。此外,2024年9月,Ultralytics发布了YOLOv11,标志着YOLO系列的又一重大进步。这些持续的迭代突显了YOLO框架内的不断进步和创新,巩固了其作为目标检测领域主导方法的地位。
2.3. 基于YOLO的小目标检测方法
Jie Luo等人提出了ESOD-YOLO[35]模型,这是一个基于YOLOv8n的小目标检测框架。它通过用RepNIBMS模块替换C2f模块来改进小物体特征提取,并使用波形特征金字塔网络(WFPN)进行高效的多尺度特征融合,增强了空间和语义信息的整合。
Shijie Zhang等人提出了RTSOD-YOLO[36]模型,旨在解决无人机检测中遮挡和复杂背景等挑战。通过结合自适应空间注意力机制和三重特征编码(TFE),该模型优化了小物体检测性能。此外,它还加入了一个高效的冗余特征生成模块,减少了模型参数并加快了推理速度。
Bingqi Liu等人提出了RE-YOLO[37]模型,专门为遥感图像设计。通过采用精炼高效模块(REM)和用于多尺度特征提取的RE_CSP块,该方法在计算复杂度和特征提取性能之间实现了最佳平衡。此外,该模型通过空间提取注意力模块(SEAM)增强了语义信息捕获,并通过三分支路径聚合网络(TBPAN)促进了浅层和深层特征的融合,从而改进了上下文信息吸收。
Chengcheng Wang提出了Gold-YOLO[38]模型,通过整合Gather-and-Distribute(GD)机制来解决YOLO框架中融合不同尺度特征的问题。该机制将卷积操作与自注意力相结合,显著提高了模型高效整合多尺度特征的能力。
Jianqiang Wang等人开发了EAL-YOLO[39]算法,这是一种基于注意力的轻量高效模型。它使用EfficientFormerV2优化骨干网络,并集成了大分离卷积注意力(LSKA)和空间金字塔池化(SPPF)以改进特征提取。此外,ASF2-Neck模块提升了小物体检测能力,而轻量级共享卷积检测头(LSCHead)在精度和计算效率之间取得了平衡,使模型即使在资源有限的设备上也能表现良好。
在最近的研究中,UAV-YOLO[40]被提出来解决从航拍视角进行小物体检测的挑战(Mingjie Liu等人,2020年)。该方法通过优化网络结构和训练过程,显著提高了检测性能。
Tushar Verma等人提出了SOAR[41]框架,该框架将双向状态空间模型(SSM)与YOLOv9和可编程梯度信息相结合,有效改善了航空图像中的小物体检测。受其工作启发,我们引入了一种增强的特征融合策略,以进一步优化检测性能。
无人机交通监控的最新进展已利用深度学习模型进行车辆检测和多目标跟踪。Robert Fonod等人[42]开发了一个鲁棒的轨迹提取流水线,集成了目标检测、轨迹稳定化和地理配准技术,以实现从航空图像中进行高精度车辆跟踪。受其工作启发,我们采用了类似的地理配准方法来提高轨迹精度。
此外,还开发了多种基于YOLO的模型,如HIC-YOLOv5[43]、FFCA-YOLO[44]、TPH-YOLOv5[45]、FE-YOLOv5[46]和CA-YOLO[47],每种模型都提供了独特的改进。这些基于YOLO模型的进展提高了小目标检测的准确性,同时保持了YOLO框架的高效率,使其在无人机图像等具有挑战性的环境中检测小物体方面特别有效。
3. 提出的模型
3.1. YOLOv8概述
由Ultralytics开发的YOLOv8是YOLO系列的一个经典版本,相较于其前代产品展现出显著的性能提升。
该模型的核心是精心设计的用于提取图像特征的骨干网络。通过将标准卷积分解为深度卷积和逐点卷积,降低了计算复杂度。深度卷积在每个通道内操作,而逐点卷积则在通道间执行1×11\times11×1操作。残差连接的使用有助于缓解梯度消失问题,增强了信息流动。这种设计加快了推理速度并提高了特征提取能力,特别是对于复杂的遥感图像。
"Neck"模块负责多尺度特征融合,包含特征金字塔网络(FPN)和路径聚合网络(PAN)。FPN通过自上而下的路径整合不同层次的特征,通过利用层次化的特征表示来增强模型的检测能力。PAN通过引入自下而上的路径进一步改进了融合过程,促进了更精细的特征聚合。这种双路径方法使模型能够有效地捕捉和解释不同尺度的物体,这在遥感任务中特别有利,因为航空图像中的目标大小和空间分辨率可能存在很大差异。
检测头负责生成最终的检测结果,包括物体定位和分类。它采用无锚点机制,消除了锚框设计固有的复杂性。通过使用卷积层,模型直接预测检测到的物体的中心坐标、尺寸(高度和宽度)以及类别标签。这种设计简化了检测过程,提高了模型的效率和灵活性,特别是在遥感任务中,因为目标在尺度上可能表现出显著变化,并且会经历航空图像中不同的空间和几何畸变。
此外,YOLOv8的训练策略已得到全面优化,包含了预训练、微调和超参数调整等阶段,以确保模型在不同数据集上达到峰值性能。在预训练阶段,模型使用大规模数据集进行初始化,以促进学习泛化特征。在微调阶段,模型进一步适应特定的目标数据集,增强其检测能力。最后,进行超参数调整以优化模型配置,提高其整体性能。图1展示了YOLOv8的网络架构。

图 1. YOLOv8结构图。
当使用YOLOv8进行小目标检测时,特别是在无人机航拍图像中,会出现一些限制和挑战。如图1所示,YOLOv8模型包含三个检测头(P3、P4和P5),分别用于检测小、中、大目标。P5头是通过将图像下采样32倍得到的。这种大幅度的下采样导致小目标(特别是小于32像素的目标)的特征信息大量丢失。如此高的下采样率实际上将目标减少为一个点,使其无法捕捉小物体的精细细节。
此外,当图像中小物体的数量显著增加时,模型的检测性能往往会下降,尤其是在无人机图像的背景下。小目标的密集分布和重叠特性进一步损害了检测精度。此外,YOLOv8可能缺乏必要的灵活性来有效处理大小和方向不同的目标,特别是在无人机图像中,目标尺度和角度可能波动很大。这种变异性增加了复杂性,从而加剧了实现准确检测的挑战。
因此,对于小物体的检测,尤其是在存在大量小目标的场景中,包含P5层变得多余。这些挑战表明,YOLOv8可能需要进一步优化,特别是对于遥感图像中的小物体检测,以提高检测精度和计算效率。
3.2. 提出的方法
为了克服YOLOv8在检测小物体方面的局限性,本文提出了一种创新的模型------SPDC-YOLO。图2展示了网络架构。
首先,SPDC-YOLO改进了原始的YOLOv8骨干网络,移除了最后的卷积模块和最后一个C2f模块。这一修改减轻了过度的32倍下采样,有效减少了小目标特征的丢失,保留了更精细的细节。此外,这一调整降低了模型的参数量,从而提高了小目标检测的准确性和效率,这对于遥感应用至关重要。
此外,在SPDC-YOLO的颈部网络中,不执行上采样。相反,引入了一种新的特征金字塔------SPC-FPN,它包含一个称为SBA(选择性边界聚合)的特征融合模块,用于融合浅层和深层特征。该设计将增强的边界特征与原始特征图融合,产生一个新的、结合了边界和全局上下文信息的特征图。通过这种方法,SPDC-YOLO能够在保持高分辨率特征图的同时,整合深层语义信息和浅层细节,从而改善小物体的检测。
最后,提出了一种新的检测头------Dyhead-DCNv4。该头创新性地用DCNv4(可变形卷积v4)模块替换了原始Dyhead中的DCNv2模块。Dyhead是一种用于目标检测任务的自适应检测头,通过使用注意力机制来优化检测过程。与传统的固定结构检测头不同,Dyhead根据输入特征图的内容动态调整其行为,从而提高了检测性能,特别是在具有多尺度和多类物体的复杂场景中。

图 2. SPDC-YOLO结构图及其与Yolov8的区别。
此外,SPDC-YOLO还引入了一个新的下采样模块------上下文引导块(CGB),该模块有效地整合了局部和全局上下文信息,以增强小目标检测的精度。该模型还用并行化补丁感知注意力(PPA)模块替换了C2f模块,增强了对局部细节和多尺度特征的感知,从而提高了复杂场景下的检测性能。此外,采用了EIOU[48]损失函数,该函数整合了形状和大小信息以优化边界框回归,产生更精确的边界框预测,并进一步提高检测精度。
总之,所提出的SPDC-YOLO模型通过整合多个关键模块,有效地解决了YOLOv8在小物体检测方面的局限性,从而提高了多尺度航空遥感图像中小物体的检测性能。
3.3. 提出的SPC-FPN
本文提出的SPC-FPN如图3所示。首先,利用SBA(选择性边界聚合)模块融合大小为40×40×51240\times40\times51240×40×512 和80×80×25680\times80\times25680×80×256 的特征图,同时执行通道拼接。得到的融合特征图随后通过PPA(并行化补丁感知注意力)模块进行进一步的特征提取,输出保持80×80×25680\times80\times25680×80×256 的维度。然后,该特征图通过CGB(上下文引导块)模块下采样至40×40×51240\times40\times51240×40×512 的大小。下采样后的特征图随后与来自并行路径的另一个40×40×51240\times40\times51240×40×512 特征图进行拼接,进一步加强了多层特征之间的融合。最后,拼接后的特征图通过PPA模块进行新一轮的特征提取,输出大小保持为40×40×51240\times40\times51240×40×512。

图 3. SPC-FPN结构图。
这种FPN的设计通过SBA模块增强了多尺度特征表示,而CGB模块则有效地整合了上下文信息以促进下采样。此外,PPA模块加强了网络对特征关系建模的能力。这些模块的相互作用共同作用,提高了网络在检测小物体方面的性能,特别是在遥感图像分析中。
在SPC-FPN中,采用SBA模块(选择性边界聚合[16])来有选择地聚合图像中的边界特征,而不是简单地处理整个图像的特征。这种策略使模型能够将更多注意力集中在可能包含边界相关信息的区域,从而增强了边界的表示。图4显示了SBA模块的结构。
FbF^{b}Fb
FsF^{s}Fs
T1T_{1}T1
T2T_{2}T2
图 4. SBA模块结构图。
与传统的特征融合方法不同,SBA模块引入了一种新颖的RAU(重校准注意力单元),旨在融合前自适应地从两个输入特征集FbF^{b}Fb 和 FsF^{s}Fs 中提取互补的表示。如图4所示,浅层和深层特征通过不同的路径输入到两个RAU模块中,允许补偿高级语义特征中缺失的空间边界信息和低级特征中缺少的语义细节。这些RAU模块生成的输出在通道维度上合并,然后输入到一个3×33\times33×3 卷积层中。这种聚合策略实现了多个特征图的鲁棒融合,进一步优化了特征表示。RAU模块的操作,记为H(⋅, ⋅)H\bigl(\cdot,\;\cdot\bigr)H(⋅,⋅),可以表示如下:
T1′=Wθ(T1), T2′=W⊘(T2)H(T1,T2)=T1′⨀T1+T2′⨀T2⨀(⊙(T1′))+T1\begin{array}{c}{{T_{1}^{\prime}=W_{\theta}\bigl(T_{1}\bigr),\;T_{2}^{\prime}=W_{\oslash}\bigl(T_{2}\bigr)}}\\ {{}}\\ {{H\bigl(T_{1},T_{2}\bigr)=T_{1}^{\prime}\bigodot T_{1}+T_{2}^{\prime}\bigodot T_{2}\bigodot\bigl(\odot\bigl(T_{1}^{\prime}\bigr)\bigr)+T_{1}}}\end{array}T1′=Wθ(T1),T2′=W⊘(T2)H(T1,T2)=T1′⨀T1+T2′⨀T2⨀(⊙(T1′))+T1
在此过程中,T1T_{1}T1 和 T2T_{2}T2 代表输入特征,它们经过Wθ(⋅)W_{\theta}(\cdot)Wθ(⋅) 和 W⊘(⋅)W_{\oslash}(\cdot)W⊘(⋅) 的线性映射和Sigmoid激活,将通道维度减少到32,从而得到特征图 T1′T_{1}^{\prime}T1′ 和 T2′T_{2}^{\prime}T2′。符号 ⊙\odot⊙ 表示逐元素相乘,而 ⊝(⋅)\circleddash(\cdot)⊝(⋅) 表示逆操作,通过从特征图 T1′T_{1}^{\prime}T1′ 中减去来实现。由于高层特征不包含特定的边界信息,通过从高层输出特征中擦除现有估计区域(其中现有估计是从更深层上采样得到的)来顺序挖掘互补区域和细节。使用核大小为1×11\times11×1 的卷积操作作为线性映射过程。因此,SBA过程可以表示如下:
Out=C3×3(Concat(H(Fs,Fb),H(Fb,Fs)))O u t={C_{3\times3}}\Big(C o n c a t\Big(H\Big({F^{s}},{F^{b}}\Big),H\big({F^{b}},{F^{s}}\Big)\Big)\big)Out=C3×3(Concat(H(Fs,Fb),H(Fb,Fs)))
在这个框架中,C3×3(⋅)C_{3\times3}(\cdot)C3×3(⋅) 表示一个包含批归一化和ReLU激活层的3×33\times33×3 卷积操作。维度为40×40×51240\times40\times51240×40×512 的特征图 FsF^{s}Fs 封装了深层的语义信息,而维度为80×80×25680\times80\times25680×80×256 的 FbF^{b}Fb 则富含边界细节。操作Concat表示沿着通道维度拼接这些特征图。最后,SBA模块的输出,记为Out,是一个维度为80×80×25680\times80\times25680×80×256 的特征图。
SBA模块的创新点如下:
SBA模块的新颖性:
SBA模块整合了低层边界特征和高层语义信息,以实现对物体边界的精确建模。这种设计有效地保留了边界细节,特别有利于小目标和边界模糊的目标;
动态特征融合:
SBA模块采用动态特征融合策略,根据输入特征的特征自适应地调整融合权重。这种机制使模型能够更有效地处理不同尺度和复杂度的目标;
针对小目标的优化:
SBA模块专门针对小目标检测,通过聚合低层边界信息和高层语义特征,从而更精确地定位小目标的边界。
传统方法通常对低层和高层特征进行简单的拼接或加权求和,这可能导致边界信息的丢失或模糊。而SBA模块通过RAU块自适应地调整融合权重,允许更精确地处理边界特征。这种设计不仅保留了边界细节,还利用语义信息对其进行校正,从而提高了检测精度。
通过SBA模块的操作,SPC-FPN鲁棒地融合了不同尺度的特征,从而增强了网络的特征表示能力。富含边界细节和细粒度信息的浅层特征对于准确描绘小物体的轮廓至关重要,而富含语义信息的深层特征则在区分物体类别方面发挥关键作用。这种层次化的特征聚合策略有效地捕捉了小目标复杂的边界和轮廓,显著提高了小物体检测性能,特别是在无人机图像中。
3.4. 替换C2f模块
在标准的YOLOv8架构中,C2f模块首先应用一个卷积层(Conv1)将输入特征图的通道维度加倍。随后是一系列逐步提取特征的Bottleneck模块。每个Bottleneck模块由多个卷积层组成,可以配置为包含或不包含快捷(残差)连接。最后,原始特征图与Bottleneck模块的输出特征图沿着通道维度进行拼接。虽然这种设计使模型能够整合多尺度特征信息并生成更丰富的特征表示,但它在小物体检测方面遇到了局限性。低分辨率特征图往往无法有效保留小目标的精细细节,导致对这些物体的特征表示不完整或不足。
小物体在特征图上仅覆盖有限数量的像素,因此在特征融合过程中容易被忽略。此外,C2f模块依赖广泛的上下文信息,这可能会抑制小物体的显著性,特别是在复杂背景中,噪声干扰进一步削弱了它们的突出性。结果,小物体往往得不到足够的关注,从而对检测性能产生不利影响。为了解决这些局限性,提出的SPDC-YOLO集成了一个新模块------PPA(并行化补丁感知注意力模块[15]),以替换原始的C2f模块。图5说明了PPA模块的结构。

图 5. PPA模块结构图。
PPA模块由注意力机制和多分支特征提取两个关键组件组成。在特征提取过程中,输入张量F首先通过逐点卷积(PW Conv)转换为F′F^{\prime}F′。然后由三个并行分支处理:一个局部分支、一个全局分支和一个串联卷积分支,分别生成 Flocal,FglobalF_{l o c a l},F_{g l o b a l}Flocal,Fglobal 和 Fconv,F_{c o n v},Fconv,。这些分支的输出通过求和进行组合,产生聚合的特征张量 F∼,\overset{\sim}{F},F∼,,维度从 H×W×C′ to H×W×CH\times W\times C^{\prime}\;{\mathsf{t o}}\;H\times W\times CH×W×C′toH×W×C 改变。补丁大小参数p区分了局部和全局分支,便于空间特征聚合和位移表示。
总之,输入特征首先通过逐点卷积(PW Conv)和多分支卷积(Conv)进行处理,以提取关键表示。然后,补丁感知模块调整补丁大小,促进局部和全局特征的提取。注意力机制进一步细化这些提取的特征,增强了它们的判别能力。最后,输出特征经过批归一化(BN)和ReLU激活,产生优化的特征表示。
在完成多分支特征提取后,PPA模块采用注意力机制来自适应地增强提取的特征。该机制由两个主要部分组成:通道注意力和空间注意力,两者都有助于细化特征表示以提高性能。
PPA模块将多尺度特征提取与通道和空间注意力机制相结合,为小物体检测提供了更精确和增强的表示。这种设计对于无人机航拍图像中的小物体检测特别有效,因为它不仅捕获了小目标的细粒度特征,还有效地抑制了背景噪声,从而提高了检测性能和准确性。
3.5. 优化下采样
在YOLOv8中,Conv模块在小物体检测方面面临几个关键挑战。首先,单个卷积层的有限感受野限制了其捕捉小物体检测所需的全局上下文信息的能力,因为这些物体在图像中只占几个像素。其次,随着网络深度的增加,特征图分辨率逐渐降低,导致空间信息丢失,使得识别和定位小物体变得困难。此外,深层中多尺度特征融合的无效性常常导致小物体特征在更高层表示中被稀释或忽略,进一步损害了检测精度。最后,卷积层在提取大物体特征方面本质上更有效,因为大物体占据更多像素且特征更清晰,而小物体缺乏显著特征,降低了网络对它们的敏感性。
为了克服这些挑战,本文引入了一种新的下采样方法------上下文引导块(CGB[14]),灵感来源于人类视觉系统利用上下文信息进行场景解释。CGB捕捉局部特征、周围上下文和全局上下文,并将它们无缝集成以提高检测精度。通过有效融合多尺度特征信息,这种方法增强了模型提取小物体特征的能力,减少了分辨率损失并保留了关键细节。
CGB的工作流程如图6所示。CGB包含两个关键组件:一个局部特征提取器 floc(∗)f_{l o c}(*)floc(∗) 和一个周围上下文特征提取器 fsur(∗)f_{s u r}(*)fsur(∗),分别设计用于捕获目标区域的细粒度特征及其周围环境的上下文信息。局部特征提取器 floc(∗)f_{l o c}(*)floc(∗) 使用标准的 3×33\times33×3 卷积来提取局部细节,同时保持输入和输出通道维度。同时,周围上下文特征提取器 fsur(∗)f_{s u r}(*)fsur(∗) 采用指定膨胀率的 3×33\times33×3 空洞卷积,扩展了感受野以捕获更广泛的上下文信息。这种方法成功地将周围区域的上下文信息结合起来,增强了模型充分理解目标区域的能力。

图 6. 上下文引导块流程图。
CGB沿着通道维度合并局部特征和周围上下文特征。拼接后的特征经过批归一化(BN)和一个参数化激活函数(ReLU)处理,产生融合特征 fjoi(∗)f_{j o i}(*)fjoi(∗),从而增强了模型的表示能力。为了进一步优化这些融合特征,CGB采用了一个全局上下文提取器 fglo(∗)f_{g l o}(*)fglo(∗),它利用全局平均池化(GAP)来捕获全局上下文信息。应用一个全连接层来重新加权每个通道,增强重要特征的表示,同时减少不相关的特征。这种方法使模型能够更有效地集中在语义上重要的区域,提高了整体检测性能。
上下文引导块通过整合结合了局部、上下文和全局信息的多尺度特征,在小物体检测方面提供了显著优势。这种融合使模型能够捕获小物体的精细细节,同时理解其周围环境,从而提高检测精度。全局上下文模块细化了关键特征,同时减轻了不相关的噪声,使模型能够更有效地专注于小目标。此外,自适应特征增强机制根据输入内容调整特征权重,使模型能够处理复杂场景,同时保留小物体的细节。这些综合能力提高了小目标检测的准确性和鲁棒性。
3.6. 使用DCNv4增强DyHead
与基础的YOLOv8相比,提出的SPDC-YOLO在检测头部分引入了一个新的检测头------Dyhead-DCNv4。核心创新在于用DCNv4(可变形卷积v4[17])模块替换了Dyhead(动态头)中的DCNv2模块。此外,SPDC-YOLO中移除了P5检测头,因为它依赖于32倍下采样的特征图,这对小于32像素的小目标检测有负面影响。
DCNv4在空间聚合过程中移除了softmax归一化,增强了网络的动态适应性和表示能力。移除softmax克服了其固有的限制,包括收敛速度受限和算子表达能力下降。通过采用自适应窗口和动态无约束权重,DCNv4在特征处理方面提供了更大的灵活性。此外,DCNv4通过指令级内核分析优化了内存访问模式,减少了冗余操作,显著提高了计算效率。优化的内存访问将开销减少了两倍,显著提高了算子的整体性能。
图7说明了DyHead的结构,包含三个核心注意力机制:尺度感知注意力 (πL)(\pi_{L})(πL)、空间感知注意力 (πS)(\pi_{S})(πS) 和任务感知注意力 (πC)(\pi_{C})(πC)。这些模块依次应用于输入特征,实现在每个阶段对特征表示进行动态加权和自适应细化。
πS\pi_{S}πS
πL\pi_{L}πL
图 7. Dyhead结构图。
给定一个特征张量 F∈RL×S×C,F\in\mathbb{R}^{L\times S\times C},F∈RL×S×C,,其自注意力机制通常可以表示成以下形式:
W(F)=π(F)⋅FW(F)=\pi(F)\cdot F W(F)=π(F)⋅F
在此上下文中,π(⋅)\pi(\cdot)π(⋅) 表示注意力函数。由于直接在所有维度上学习注意力函数的计算成本过高且不切实际,DyHead将其分解为三个顺序的注意力模块,每个模块专注于一个不同的视角:
W(F)=πC(πS(πL(F)⋅F)⋅F)⋅FW\bigl(F\bigr)=\pi_{C}\bigl(\pi_{S}\bigl(\pi_{L}\bigl(F\bigr)\cdot F\bigr)\cdot F\bigr)\cdot F W(F)=πC(πS(πL(F)⋅F)⋅F)⋅F
上式中 πL,πS\pi_{L},\pi_{S}πL,πS 和 πC\pi_{C}πC 的计算方法定义如下:
πL(F)⋅F=σ(f(1SC∑S,CF))⋅F\pi_{L}\big(F\big){\cdot}F=\sigma\big(f\big(\frac{1}{S C}{\sum_{S,C}F}\big)\big){\cdot}F πL(F)⋅F=σ(f(SC1S,C∑F))⋅F
πS(F)⋅F=1L∑l=1L∑k=1Kwl,k⋅F(l;pk+Δpk;c)⋅Δmk\pi_{S}\left(F\right)\cdot F=\frac{1}{L}\sum_{l=1}^{L}\sum_{k=1}^{K}w_{l,k}\cdot F\left(l;p_{k}+\Delta p_{k};c\right)\cdot\Delta m_{k}πS(F)⋅F=L1l=1∑Lk=1∑Kwl,k⋅F(l;pk+Δpk;c)⋅Δmk
πC(F)⋅F=max(α1(F)⋅Fc+β1(F),α2(F)⋅FC+β2(F))\pi_{C}\left(F\right)\cdot F=\operatorname*{m a x}\left(\alpha^{1}\left(F\right)\cdot F_{c}+\beta^{1}\left(F\right),\alpha^{2}\left(F\right)\cdot F_{C}+\beta^{2}\left(F\right)\right)πC(F)⋅F=max(α1(F)⋅Fc+β1(F),α2(F)⋅FC+β2(F))
在等式(6)中,f(⋅)f(\cdot)f(⋅) 表示一个线性函数,而 KaTeX parse error: Undefined control sequence: \aftergroup at position 59: ...e\bgroup\left(x\̲a̲f̲t̲e̲r̲g̲r̲o̲u̲p̲\egroup\right)=... 表示一个硬sigmoid函数。在等式(7)中,K表示稀疏采样位置的数量,pk+Δpkp_{k}+\Delta p_{k}pk+Δpk 表示由可学习的空间偏移 Δpk\Delta p_{k}Δpk 调整后的采样位置。项 Δmk\Delta m_{k}Δmk 表示位置 pkp_{k}pk 上的可学习重要性标量。
在等式(8)中,FcF_{c}Fc 指的是第c个通道的特征切片,而 [α1,α2,β1,β2]T=θ(⋅)\left[\alpha^{1},\alpha^{2},\beta^{1},\beta^{2}\right]^{T}=\theta{\bigl(}\cdot{\bigr)}[α1,α2,β1,β2]T=θ(⋅) 是一个元函数,旨在学习和控制激活阈值。这个过程涉及沿着L和S维度进行全局平均池化以降低空间分辨率,然后是两个全连接层和一个归一化层。输出随后使用一个移位的sigmoid函数归一化到范围 [−1,1][-1,1][−1,1]。
通过这种多层注意力机制设计,Dyhead-DCNv4能够适应多个尺度、空间维度和任务的复杂特征。它还提高了处理速度,显著改善了航空遥感图像中多尺度小物体的检测性能。
3.7. 优化损失函数
在小物体检测中,YOLOv8使用的CIoU损失函数存在一些缺点,包括对小位置偏移的低敏感性、对微小中心偏移的过度惩罚以及宽高比不匹配带来的显著影响。此外,由于小物体通常产生较低的IoU值,CIoU在优化此类低IoU边界框方面效果较差,这阻碍了误差的减少,并最终降低了小物体的检测精度。
为了克服这些限制,提出的SPDC-YOLO使用了EIoU[48]损失函数,该函数同时考虑了预测边界框和真实边界框之间的中心距离和宽高比差异。这使得边界框回归能够得到更精确的优化,从而产生更符合实际目标的预测,并提高了目标检测中的定位精度。
EIoU损失包括三个部分:IoU损失 (LIOU)\left(L_{I O U}\right)(LIOU)、距离损失 (Ldis)\left(L_{d i s}\right)(Ldis) 和宽高比损失 (Lasp)\left(L_{a s p}\right)(Lasp)。IoU损失 (LIOU)\left(L_{I O U}\right)(LIOU) 量化预测边界框和真实边界框之间的交集,衡量它们的重叠程度。距离损失 (Ldis)\left(L_{d i s}\right)(Ldis) 使用欧几里得距离来捕捉预测框和目标框中心点之间的差异,该距离在公式中被归一化以强调较大的差异。宽高比损失 (Lasp)\left(L_{a s p}\right)(Lasp) 考虑了预测框和目标框之间宽度和高度的变化,通过归一化宽度和高度的平方差来减少形状差异。
在图8中,蓝色矩形代表面积为A的锚框,红色矩形代表面积为B的目标框。黄色矩形表示包含锚框和目标框的最小外接矩形。锚框和目标框中心之间的欧几里得距离表示为 ρ(b,bgt)\rho\left(b,b^{g t}\right)ρ(b,bgt)。EIoU的计算公式如下:
LEIOU=LIOU+Ldis+LaspL_{E I O U}=L_{I O U}+L_{d i s}+L_{a s p}LEIOU=LIOU+Ldis+Lasp
LIOU=1−∣A∩B∣∣A∪B∣L_{I O U}=1-{\frac{\left|A\cap B\right|}{\left|A\cup B\right|}}LIOU=1−∣A∪B∣∣A∩B∣
Ldis=ρ2(b,bgt)(wc)2+(hc)2L_{d i s}=\frac{\rho^{2}\left(b,b^{g t}\right)}{\left(w^{c}\right)^{2}+\left(h^{c}\right)^{2}}Ldis=(wc)2+(hc)2ρ2(b,bgt)
Lasp=ρ2(w,wgt)(wc)2+ρ2(h,hgt)(hc)2L_{a s p}=\frac{\rho^{2}\big(w,w^{g t}\big)}{\big(w^{c}\big)^{2}}+\frac{\rho^{2}\big(h,h^{g t}\big)}{\big(h^{c}\big)^{2}}Lasp=(wc)2ρ2(w,wgt)+(hc)2ρ2(h,hgt)
EIoU中增强的距离和宽高比损失不仅保留了CIoU的优点,而且更有效地减少了边界框尺寸的差异。因此,EIoU确保了位置和形状的更好对齐。这个精确的损失函数加速了收敛并提高了定位精度,使其特别适合无人机图像中的小物体检测任务。

图 8. EIoU计算示意图。
4. 实验
4.1. 实验数据集
本研究采用VisDrone2019数据集进行验证,该数据集由天津大学机器学习与数据挖掘实验室的AISKYEYE团队精心收集和标注。数据集被划分为6471张训练图像、548张验证图像和1610张测试图像,涵盖10个不同的目标类别。数据集的空间分辨率范围为每像素0.02米至0.1米。训练集中的数据分布如图9所示。
在图9中,左上图说明了不同类别间的目标数量分布,x轴代表数据集中的各个类别,y轴表示每个类别中的目标数量。右上图说明了数据集中目标边界框的样式和大小分布。左下图说明了图像内目标边界框中心点的分布。x轴和y轴分别表示这些中心点沿图像宽度和高度的归一化坐标,颜色强度表示每个位置的目标数量。右下图说明了目标相对于整个图像的宽高比分布。x轴和y轴分别表示目标在图像内的归一化宽度和高度,缩放在0到1之间,颜色强度表示每个宽高比下的目标数量。

图 9. VisDrone2019数据分布。
此外,该数据集包含从广泛的城市和农村环境中获取的高分辨率图像,包括交通繁忙的区域和熙熙攘攘的街道环境。这些图像从多个视角拍摄,背景多样,从而为数据集赋予了高度的真实性。数据集的示例如图10所示。
(c)许多小目标
(d) 阴天
图 10. VisDrone2019数据集典型图像。
4.2. 实验设置与评估指标
4.2.1. 实验设置
在本实验中使用Ubuntu 18.04操作系统作为实验平台,采用Python版本3.12、PyTorch版本2.5.0和CUDA版本11.8。所提出的模型在一致的超参数设置下进行训练、测试和验证。计算硬件配置包括Intel® Xeon® Gold 5220R处理器和NVIDIA A100-PCIE GPU。其他重要的训练参数详见表1。
表 1. 实验参数配置。
|-------|-------|--------------|
| 训练参数 | 批大小 | 32 |
| | 迭代轮数 | 300 |
| | 优化器 | SGD |
| | 动量 | 0.9 |
| | 图像尺寸 | 1024 × 640 |
| | 初始学习率 | 0.01 |
| 计算机配置 | 操作系统 | Ubuntu 18.04 |
| 计算机配置 | CPU | 1 GHz |
| 计算机配置 | 显存 | 40 GB |
4.2.2. 评估指标
为了全面有效地评估所提出的模型,采用了四个指标:精确率(P)、召回率(R)、平均精度(AP)、平均精度均值(mAP)、神经网络参数量(M)和每秒十亿次浮点运算数(GFLOPs)。部分评估指标的计算方法如下:
R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP
P=TPTP+FPP={\frac{T P}{T P+F P}}P=TP+FPTP
mAP=1C∑i=1CAPim A P=\frac{1}{C}{\sum_{i=1}^{C}A P_{i}}mAP=C1i=1∑CAPi
在上述公式中,C代表类别数量,而平均精度(AP)是通过计算精确率-召回率(P-R)曲线下的面积得到的。误报(FP)是被错误预测为正样本的负样本,真阴性(TN)是正确分类的负样本,真阳性(TP)是正确识别的正样本,漏报(FN)是被误分类为负样本的正样本。
4.3. 消融实验
为了全面评估SPDC-YOLO各项改进的有效性,在VisDrone2019数据集的验证集上进行了一系列消融研究。这些实验旨在分离并量化每个单独改进对模型性能的贡献,以及评估这些技术整合时的协同效应。所有实验均使用一致的超参数设置进行,以确保结果的可比性。这种系统方法使得能够更精确地分析每项改进的具体影响,并揭示这些修改如何协同优化SPDC-YOLO的整体性能。
消融实验结果如表2所示。移除P5检测头并引入SPC-FPN后,模型参数减少了66.7%,而mAP50仅下降1%。这表明P5检测头对小物体检测并不关键。此外,在SPC-FPN的基础上,用PPA模块替换原始的C2f模块,其性能优于原始的YOLOv8n,同时参数量减少了50%以上。集成Dyhead-DCNv4使得mAP50提高了2.2个百分点,突显了DCNv4增强的Dyhead在小物体检测方面的优势。最后,结合EIoU损失函数带来了显著的改进:与YOLOv8n相比,mAP50提高了3.4个百分点,mAP50-95提高了2.4个百分点,参数量减少了1.03亿。
表 2. VisDrone2019验证集上的消融实验结果。
|-------------|---------|-----|-----|--------------|------|-----------|--------------|---------|
| | SPC-FPN | CGB | PPA | DyHead-DCNv4 | EIoU | mAP50 (%) | mAP50-95 (%) | 参数量 (M) |
| YOLOv8n | | | | | | 43.1 | 26.0 | 3.00 |
| | √ | | | | | 42.1 | 25.3 | 1.00 |
| | √ | 2 | | | | 42.8 | 26.0 | 1.14 |
| | √√√√√ | | L | | | 43.2 | 26.2 | 1.24 |
| | | | | | | 44.8 | 27.3 | 1.59 |
| | | 2 | | | | 43.7 | 26.7 | 1.38 |
| | | | | | | 45.4 | 27.7 | 1.84 |
| | | √ | | | | 45.9 | 28.1 | 1.97 |
| SPDC-YOLO-n | √ | √ | √ | | √ | 46.5 | 28.4 | 1.97 |
4.4. 改进模块的对比实验
4.4.1. 不同特征融合方法的有效性比较
为了进一步评估SBA模块在小物体检测任务中的有效性,我们将SBA模块引入到YOLOv8框架中,并将其性能与几种常见的特征融合方法进行了比较。选择VisDrone2019验证集作为实验数据集,以评估SBA模块与其他特征融合技术在复杂现实场景中的性能差异。实验结果如表3所示,展示了各种方法在小物体检测不同指标上的比较。通过这些对比实验,我们能够清晰地分析SBA模块在提升小物体检测性能方面的优势。
表 3. 不同特征融合方法对比。
|------------|-------|-------|-----------|--------------|-----------|
| 方法 | P (%) | R (%) | mAP50 (%) | mAP50-95 (%) | 测试速度 (ms) |
| biFPN | 52.1 | 42.8 | 43.9 | 26.5 | 2.4 |
| CGRFPN | 51.4 | 39.7 | 41.3 | 24.6 | 2.8 |
| Yolov8 | 51.5 | 42.3 | 43.1 | 26.0 | 2.5 |
| Yolov8-SBA | 52.3 | 42.6 | 44.0 | 26.6 | 2.4 |
实验结果表明,与其他特征融合方法相比,SBA模块在小物体检测任务中表现出明显的优势。YOLOv8-SBA在准确性方面表现异常出色,特别是在mAP50(44.0% vs. 43.1%)和mAP50-95(26.6% vs. 26.0%)方面的改进,突显了SBA模块在小物体检测中的有效性。此外,YOLOv8-SBA在精确率(52.3%)和召回率(42.6%)方面优于基线YOLOv8,表明其小物体检测能力得到了提升。虽然YOLOv8-SBA的推理速度(2.4 ms)与YOLOv8(2.5 ms)相当,并且比CGRFPN(2.8 ms)快,但性能的提升并未显著影响计算效率。相比之下,biFPN在mAP50方面表现更好,但在mAP50-95和小物体检测方面落后于YOLOv8-SBA。因此,通过整合SBA模块,YOLOv8-SBA实现了更优的整体性能,在保持高推理速度的同时,提高了小物体检测的准确性。
4.4.2. 不同改进检测头的对比实验
为了进一步验证使用Dyhead-DCNv4在提高模型小物体检测准确性方面的有效性,我们在VisDrone2019验证集上进行了详细的对比实验。在实验中,保持所有其他模块不变,比较了不同检测头的性能,包括传统的和几种先进的检测头结构。通过这种比较,我们旨在全面分析Dyhead-DCNv4在小物体检测任务中的优势。实验结果如表4所示。
表 4. Dyhead-DCNv4与其他检测头的对比。
|---------------|-------|-------|--------------------------------------------------|--------------|-----------|
| 检测头 | P (%) | R (%) | \\mathbf{m}\\mathbf{A}\\mathbf{P}_{50}\\ (\\%) | mAP50-95 (%) | 测试速度 (ms) |
| SEAMhead | 51.1 | 41.9 | 42.4 | 25.8 | 3.7 |
| LSCD | 51.9 | 42.1 | 42.6 | 25.9 | 3.6 |
| EfficientHead | 51.8 | 41.4 | 42.7 | 25.8 | 3.3 |
| LSDECD | 51.4 | 41.9 | 42.4 | 25.6 | 3.8 |
| Dyhead | 55.5 | 42.6 | 45.1 | 27.7 | 3.9 |
| Dyhead-DCNv4 | 55.4 | 43.6 | 45.9 | 28.1 | 3.6 |
注:粗体数据表示最佳性能。
实验结果表明,Dyhead-DCNv4在小物体检测任务中表现优异,特别是在准确性和检测能力方面。它在精确率(55.4%)和召回率(43.6%)方面显著优于其他方法,同时在mAP50(45.9%)和mAP50-95(28.1%)方面也表现出色。与Dyhead相比,Dyhead-DCNv4在mAP50和mAP50-95方面都有所提高,表明将DCNv4集成到Dyhead中能有效增强小物体检测。Dyhead-DCNv4的推理速度为3.6毫秒,略慢于EfficientHead(3.3毫秒),但通过提高精度,在性能和速度之间取得了更好的平衡。总体而言,Dyhead-DCNv4在保持高效率的同时提高了检测精度,优于其他方法。这表明增强的DCNv4结构对性能提升有显著贡献。
4.4.3. 不同损失函数的对比实验
在提出的SPDC-YOLO模型中,EIoU被用作损失函数。为了证明其有效性,在集成Dyhead-DCNv4后,保持所有其他组件不变,进行了一系列对比实验。在VisDrone2019验证集上将EIoU与DIoU、GIoU、ShapeIoU、Inner_CIoU和Inner_DIoU进行比较,结果如表5所示。这些实验旨在突出EIoU在提高检测性能,特别是遥感图像中小目标检测方面的优势。
根据实验结果,EIoU损失函数在多个重要标准上表现异常出色,包括召回率(R)、mAP50和mAP50-95。虽然EIoU达到的精确度略低于Inner_DIoU,但其在召回率方面表现出显著提高,突显了其对小物体检测的增强敏感性。这些结果的对比分析提供了令人信服的证据,表明EIoU损失函数对于小目标检测任务,特别是在遥感图像中,是有效的。
表 5. EIoU与其他损失函数的对比。
|------------|-------|-------|-----------|--------------|
| 损失函数 | P (%) | R (%) | mAP50 (%) | mAP50-95 (%) |
| CIoU | 55.4 | 43.6 | 45.9 | 28.1 |
| DIoU | 54.8 | 44 | 46.2 | 28.3 |
| GIoU | 55.6 | 43.9 | 46.1 | 28.2 |
| ShapeIoU | 55.1 | 44.1 | 46.1 | 28.2 |
| Inner_CIoU | 55.3 | 43 | 45.7 | 27.8 |
| Inner_DIoU | 56.3 | 43.9 | 46.3 | 28.3 |
| EIoU | 55.3 | 44.8 | 46.5 | 28.4 |
注:粗体数据表示最佳性能。
4.5. SPDC-YOLO与其他模型的比较
4.5.1. 与传统模型的比较
为了进一步评估SPDC-YOLO在小物体检测任务中的性能,我们在VisDrone2019验证集上进行了详细的对比实验。实验中,我们将SPDC-YOLO的检测结果与几个经典模型进行了比较,这些模型代表了不同的架构和复杂度。通过这些比较,我们能够全面评估SPDC-YOLO在实际应用中的性能。实验结果如表6所示,展示了模型在不同指标上的差异。
表 6. SPDC-YOLO与经典模型的对比。
|----------------------|-----------|----------------------------------|---------|--------|-----------|
| 模型 | mAP50 (%) | \\mathrm{m A P}_{50-95}\~(\\%) | 参数量 (M) | GFLOPs | 测试速度 (ms) |
| Faster R-CNN [49] | 33.2 | 19.9 | | 208 | 72.1 |
| RetinaNet [49] | 29.0 | 17.2 | | 210 | 74.3 |
| Cascade R-CNN [50] | 39.3 | 25.6 | 68.9 | - | - |
| EfficientDet [50] | 38.5 | 54.6 | 34.7 | - | - |
| DTSSNet [51] | 39.9 | 24.2 | 10.1 | 50.4 | 12.8 |
| ATSS [51] | 31.7 | 18.6 | 10.3 | 57.0 | 13.2 |
| SPDC-YOLO-n | 46.5 | 28.4 | 1.97 | 10.0 | 3.5 |
| SPDC-YOLO-s | 51.1 | 31.8 | 5.34 | 30.0 | 4.5 |
注:上述所有实验数据均来自已发表的论文。粗体数据表示本文提出的模型。
实验结果表明,SPDC-YOLO-s和SPDC-YOLO-n在关键指标上显著优于其他模型,特别是在mAP50和mAP50-95方面。SPDC-YOLO-s实现了51.1%的mAP50和31.8%的mAP50-95,显示出优异的检测准确性。SPDC-YOLO-n也表现出强大的性能,mAP50为46.5%,mAP50-95为28.4%,同时保持了较低的参数量(1.97 M)和较低的计算成本(10.0 GFLOPs),确保了高效率。
4.5.2. 与YOLO系列模型的比较
同样,为了展示所提出的SPDC-YOLO的竞争力,在VisDrone2019验证集上对SPDC-YOLO与YOLO系列各个版本模型进行了全面比较。详细评估了每个模型在一系列关键参数上的性能,强调了SPDC-YOLO在小物体检测方面的优势。实验结果如表7所示。
表 7. SPDC-YOLO与YOLO系列模型的对比。
|-------------|-------|-------|-----------|--------------|---------|--------|-----------|
| 网络 | P (%) | R (%) | mAP50 (%) | mAP50-95 (%) | 参数量 (M) | GFLOPs | 测试速度 (ms) |
| Yolov3-tiny | 39.5 | 30.5 | 29.0 | 14.8 | 8.68 | 12.9 | 4.4 |
| Yolov5-n | 47.1 | 37.7 | 37.7 | 21.3 | 1.77 | 4.2 | 2.1 |
| Yolov6 | 46.5 | 40.0 | 36.1 | 21.0 | 4.63 | 29.04 | 12.1 |
| Yolov8-n | 51.5 | 42.3 | 43.1 | 26.0 | 3.0 | 8.1 | 2.5 |
| Yolov9-t | 54.3 | 43.3 | 44.9 | 22.7 | 2.62 | 10.7 | 3.8 |
| Yolov10-n | 51.4 | 40.5 | 42.2 | 25.6 | 2.69 | 8.2 | 3.0 |
| Yolov11-n | 50.5 | 42.2 | 42.5 | 25.8 | 2.58 | 6.3 | 2.4 |
| SPDC-YOLO-n | 55.3 | 44.8 | 46.5 | 28.4 | 1.97 | 10.0 | 3.5 |
注:粗体数据表示最佳性能。
实验结果表明,SPDC-YOLO-n在mAP50和mAP50-95方面均优于其他网络。例如,YOLOv3-tiny的mAP50仅为29.0%,而SPDC-YOLO-n提高了17.5个百分点。与YOLOv5-n和YOLOv8-n相比,SPDC-YOLO-n也实现了更高的检测精度。SPDC-YOLO-n的参数量仅为1.97 M,GFLOPs为10.0,推理速度为3.5毫秒,计算成本较低。相比之下,YOLOv6的推理速度较慢,而SPDC-YOLO-n在准确性和效率之间取得了更好的平衡。总体而言,SPDC-YOLO-n在小物体检测方面表现出色,兼具高精度和高效率。
4.5.3. 与其他改进的YOLO方法的比较
为了进一步评估SPDC-YOLO模型的性能,我们在VisDrone2019验证集上将其与各种基于YOLO的改进模型进行了比较分析。这些模型是专门为小物体检测而设计的。实验结果总结在表8中。
表 8. 与基于YOLO改进模型的对比。
|---------------------|----------------------------|--------------|---------|--------|-----------|
| 模型 | \\mathbf{m A P}_{50} (%) | mAP50-95 (%) | 参数量 (M) | GFLOPs | 测试速度 (ms) |
| GCGE-YOLO [52] | 34.1 | 19.2 | 4.5 | 10.8 | 4.4 |
| C3TB-YOLOv5 [53] | 38.3 | 22.0 | 8.0 | 19.7 | 5.3 |
| TPH-YOLO [45] | 39.3 | 23.6 | 51.5 | 138.1 | 22.1 |
| LE-YOLO [54] | 39.3 | 22.7 | 2.1 | 13.1 | 4.1 |
| 改进的YOLOv8 [55] | 42.2 | - | 9.66 | - | - |
| UAV-YOLOv8 [56] | 47.0 | 29.2 | 10.3 | - | - |
| Drone-YOLO-s [57] | 44.3 | 27.0 | 10.9 | 一 | 二 |
| SOD-YOLO-s [58] | 42.0 | 25.1 | 1.75 | 20.1 | 3.9 |
| SPDC-YOLO-n | 46.5 | 28.4 | 1.97 | 10.0 | 3.5 |
| SpDC-YOLO-s | 51.1 | 31.8 | 5.34 | 30.0 | 4.5 |
注:粗体数据表示本文提出的模型。
表8中的实验结果表明,UAV-YOLOv8在性能上略优于SPDC-YOLO-n,但代价是参数量显著增加。值得注意的是,与UAV-YOLOv8相比,SPDC-YOLO-s的mAP50提高了4.1个百分点,同时保持了较低的参数量,并且SPDC-YOLO显示出比其他方法更快的推理速度。总体而言,提出的SPDC-YOLO模型表现出卓越的效率和准确性,在不影响推理速度的情况下,实现了更高的mAP50和mAP50-95分数。
4.6. 各子类别实验结果
为了进一步评估SPDC-YOLO在多类别目标检测任务中相对于YOLOv8的性能提升,我们使用VisDrone2019数据集进行了实验,对十个类别分别进行了评估。比较的模型包括YOLOv8n、YOLOv8s、SPDC-YOLO-n和SPDC-YOLO-s,并在验证集和测试集上评估了它们的性能。每个类别的检测精度使用mAP50(平均精度均值)进行量化,并使用条形图直观地展示各类别间的性能差异。图11展示了验证集的结果,图12展示了测试集的结果。

图 11. 验证集上不同模型在各类别mAP50的比较。

图 12. 测试集上不同模型在各类别mAP50的比较。
根据实验结果,SPDC-YOLO在测试集和验证集上的每个类别中都比原始的YOLOv8模型表现更好。在验证集上,SPDC-YOLO-n在"bus"类别上取得了63.3%的mAP50,相较于YOLOv8n提高了8.4个百分点,而SPDC-YOLO-s达到了69.3%的mAP50,比YOLOv8s提高了5.7个百分点。这些结果强调了整合到SPDC-YOLO中的改进的有效性。在测试集上,虽然对于"people"、"bicycle"和"awning-tricycle"等具有挑战性的类别改进不太明显,但SPDC-YOLO仍然表现出了明显的性能提升,突显了增强模型在各个类别间的鲁棒性。SPDC-YOLO在所有类别上的检测精度均优于YOLOv8,展示了在遥感图像中小物体检测方面改进的泛化能力。
4.7. 可视化实验
为了评估SPDC-YOLO-n相对于参考模型YOLOv8n的检测能力,从VisDrone2019测试数据集中选择了三张图像。这些图像代表了不同的场景、变化的照明条件和不同的视角。关键检测区域用红色圆圈标出,以便更清晰地可视化结果。这种方法使得能够直观地比较SPDC-YOLO-n和YOLOv8n在实际条件下的性能差异。
图13显示了一张无人机在黄昏时分拍摄的图像,描绘了一个十字路口,由于光线条件较差,给目标检测带来了重大挑战。图像包括三个类别:汽车、摩托车和行人。基线YOLOv8模型难以准确检测人行道上的行人和停在路边的摩托车。相比之下,提出的SPDC-YOLO模型成功检测到了这些具有挑战性的目标。使用红色圆圈突出显示了这些难以检测的物体,以便于观察和分析。这些结果证明了SPDC-YOLO在处理复杂检测场景,特别是在低光照条件下增强的能力。
图14描绘了白天拍摄的城市街道鸟瞰图。充足的光照为光线充足区域的车辆轮廓和颜色提供了更清晰的可见度,有利于目标检测。然而,强烈的光照也会在一些车辆表面产生眩光,可能干扰检测算法。相反,在光线有限的阴影区域,车辆特征可能不太明显,使得算法难以准确捕捉颜色和形状等细节。在图14中,YOLOv8n模型未能检测到一个由红色圆圈标记的车辆,而提出的SPDC-YOLO模型成功地识别了它。这个结果证明了SPDC-YOLO在不同光照条件下具有优越的适应性,使其能够在多样化的照明场景中保持高检测精度和精确定位。
图15展示了一张无人机在夜间拍摄的城市街道鸟瞰图。图像主要包含汽车、卡车和公共汽车,车辆的运动被捕捉为光迹,显示了它们的轨迹。值得注意的是,街道沿线一些未被路灯直接照亮的区域也有几辆车存在。整个场景中不均匀的照明显著增加了检测任务的复杂性。比较图15中的(a)和(b)可以发现,基线YOLOv8n模型未能检测到红色圆圈标记的车辆,而提出的SPDC-YOLO成功识别了这些具有挑战性的目标。这一结果进一步证明了SPDC-YOLO在不均匀光照条件下的优越性能,有效提高了复杂夜间环境中的检测精度。
为了验证PPA模块在小物体检测任务中的有效性,本研究比较了原始YOLOv8模型和仅使用PPA模块增强的YOLOv8模型在城市十字路口场景中的性能。具体来说,将两个模型应用于相同的输入图像以生成相应的热图,如图16所示。
如图16所示,由PPA增强模型生成的热图显示出更广泛的覆盖区域、更均匀的整体热强度分布以及更多数量的检测到的车辆。此外,为了更直观地比较相同区域的检测差异,使用红色矩形突出显示两个模型中的对应区域。比较显示,在这些区域中,PPA增强模型表现出更高的热强度并检测到更多小物体,进一步验证了PPA模块在提高小物体检测性能方面的有效性。

(a) YOLOv8-n检测效果
(b) SPDC-YOLO-n检测效果
图 13. 傍晚时分倾斜角度拍摄的十字路口航拍图像。

图 14. 强光下拍摄的道路图像。

(b) SPDC-YoLO-n检测效果
(a) YOLOv8-n检测效果
图 15. 无人机夜间拍摄的道路上方图像。

(a) 添加PPA模块前
图 16. 添加PPA模块前后热图对比。

(b) 添加PPA模块后
为了更直观地表示SPDC-YOLO在复杂环境中的性能改进,对图15中描绘的夜间城市街道场景进行了热图可视化分析,结果如图17所示。(a)部分显示了原始图像,(b)和©部分分别说明了由YOLOv8n和提出的SPDC-YOLO生成的热图。对比分析表明,YOLOv8n模型主要关注移动车辆,忽略了路边静止的车辆(由红色圆圈标记),并且表现出相对较低的热强度。相比之下,SPDC-YOLO的热图显示出更广泛的覆盖范围,检测到更多的车辆,并且热强度更均匀、更高。这表明SPDC-YOLO在检测更多目标方面具有增强的敏感性,特别是在具有挑战性的条件下。

(a) 原图

(b) YOLOv8n热图
图 17. 热图对比。

(c) SPDC-YOLO-n热图
4.8. DIOR数据集对比实验
本研究还使用SPDC-YOLO在DIOR[59]数据集上进行了对比实验,以进一步验证其有效性并全面评估其在各种场景中的性能。DIOR数据集是一个用于光学遥感图像小目标检测的大规模基准数据集,由23,463张遥感图像和190,288个标注目标实例组成,涵盖20个目标类别。这20个类别是:飞机、机场、棒球场、篮球场、桥梁、烟囱、水坝、高速公路服务区、高速公路收费站、港口、高尔夫球场、田径场、立交桥、船舶、体育场、储罐、网球场、火车站、车辆和风车。实验结果如表9所示。
表 9. DIOR数据集对比实验结果。
|-------------|-------|-------|-----------|--------------|--------|
| 模型 | P (%) | R (%) | mAP50 (%) | mAP50-95 (%) | GFLOPs |
| GhostNet | 87.0 | 76.9 | 83.8 | 59.7 | 5.2 |
| MobileNetv3 | 84.0 | 73.4 | 79.9 | 54.9 | 5.7 |
| YOLOv3 | 77.6 | 74.5 | 76.2 | 50 | 18.9 |
| YOLOv5 | 78.4 | 79.7 | 82.5 | 53.5 | 7.1 |
| YOLOv8 | 91.1 | 80.4 | 87.9 | 65.1 | 8.1 |
| SPDC-YOLO-n | 90.0 | 83.0 | 89.4 | 67.4 | 10.0 |
注:粗体数据表示本文提出的模型。
表9中的实验结果表明,SPDC-YOLO在所有指标上都表现出色。其精确率(P)为90.0%,召回率(R)为83.0%,显著优于YOLOv3和YOLOv5,特别是在召回率方面。虽然YOLOv8在精确率上略微超过SPDC-YOLO,但SPDC-YOLO在召回率上仍然优于其他模型。在mAP方面,SPDC-YOLO实现了89.4%的mAP50,显著高于YOLOv3和MobileNetv3,其mAP50-95为67.4%,展示了其在更严格的评估标准下的强大性能。尽管其GFLOPs值为10.0,高于YOLOv5,但仍低于YOLOv3,表明SPDC-YOLO在增强性能和计算效率之间取得了有效平衡,使其适用于资源受限的环境。总体而言,在DIOR数据集上的实验结果表明,SPDC-YOLO在各种场景和任务中都提高了性能。
5. 讨论
在多尺度无人机图像中,目标检测带来了许多挑战,包括小目标尺寸、复杂背景和不均匀光照。为了应对这些挑战,SPDC-YOLO在颈部网络中采用了新颖的SPC-FPN进行特征融合,并移除了专为大物体设计的P5检测头,仅保留了40×4040\times4040×40 和 80×8080\times8080×80 的检测头。这种方法在提高对小目标敏感性的同时降低了模型的参数量,成功解决了航拍中小物体检测的困难。此外,在下采样阶段,CGB模块学习了局部物体及其周围环境的联合特征,通过整合全局上下文信息改善了特征表示,从而缓解了目标特征稀疏的问题。在检测头阶段,SPDC-YOLO使用了新的Dyhead-DCNv4。Dyhead由三个核心注意力机制组成,实现了动态特征加权和自适应调整。DcNv4优化了内存访问模式,减少了冗余操作,并显著提高了处理速度。如图13所示,YOLOv8未能检测到一些小的、略微模糊的目标,而SPDC-YOLO成功识别了这些漏检目标,有效克服了无人机图像中由于复杂背景导致的漏检挑战。
表6和表7所示的统计数据表明,SPDC-YOLO在准确性和速度方面优于其他传统模型和YOLO系列变体,在检测微小和中等大小物体方面展现出显著优势。这些优势不仅体现在更高的检测精度和更低的误报率上,还体现在更少的参数量和更低的计算复杂度上。此外,在图14中,尽管拍摄角度高、光照过度,这降低了无人机图像的质量并引入了显著的噪声和干扰,SPDC-YOLO仍能成功定位目标。这证明了其卓越的鲁棒性和抗干扰能力,突显了其在复杂和具有挑战性的环境中的应用潜力。
6. 结论
本文提出了一种基于YOLOv8的新模型SPDC-YOLO,用于检测多尺度无人机图像中的小物体。该模型在保持较高mAP50的同时实现了更少的参数。通过整合多项创新,解决了小物体检测任务中的常见挑战。具体来说,SPDC-YOLO在颈部部分引入了新提出的SPC-FPN以融合多尺度特征,采用CGB模块进行下采样以整合上下文信息,并用PPA模块替换原始C2f模块以增强特征表示。此外,我们使用Dyhead-DCNv4进行定位和分类。为了进一步改进边界框回归过程,采用了EIoU损失函数,该函数同时考虑了预测边界框与真实边界框之间的中心距离和宽高比差异,从而提高了定位精度。
在VisDrone2019数据集上的实验结果表明,SPDC-YOLO显著优于YOLOv8和其他YOLO变体。与其他增强的基于YOLO的模型相比,SPDC-YOLO在保持性能和计算效率平衡的同时,实现了更优的检测精度。此外,在验证集和测试集上,它持续提高了VisDrone2019数据集所有10个类别的检测精度。
尽管具有优势,但SPDC-YOLO的计算成本略高于YOLOv8,且未应用模型剪枝或知识蒸馏技术。未来的工作可以侧重于进一步优化模型以实现实时部署,包括轻量级网络压缩技术,如剪枝和知识蒸馏。此外,将SPDC-YOLO与边缘计算框架集成将增强其在基于无人机的实时检测任务中的适用性。另一个有前景的方向是使SPDC-YOLO适应其他遥感应用,例如合成孔径雷达(SAR)图像,以评估其在不同感知模式下的鲁棒性和泛化能力。
作者贡献:构思,J.B.;方法,J.B.和K.L.;验证,J.B.和X.Z.;调查,J.B.和G.Z.;初稿撰写,J.B.;修订和编辑,J.B., K.L., X.Z.X.Z.X.Z.,GZ\mathrm{G}ZGZ 和 T.L. 所有作者均已阅读并同意稿件的最终版本。
资金:本研究未获得外部资助。
数据可用性声明:本文中包含的原始贡献。如果您有进一步的问题,请联系第一作者。
致谢:衷心感谢期刊的编辑、审稿人和所有工作人员。正是你们的专业精神和不懈努力,使得每一份作品都熠熠生辉。
利益冲突:作者声明不存在利益冲突。