RFAG-YOLO：一种用于无人机图像中小目标检测的感受野注意力引导YOLO网络

摘要

https://www.mdpi.com/1424-8220/25/7/2193

YOLO系列目标检测方法凭借其高效性和准确性，在广泛的计算机视觉任务中取得了显著成功。然而，由于无人机图像存在分辨率低、背景干扰复杂以及尺度变化显著等因素，检测其中的小目标仍然是一项艰巨的挑战，这些因素共同导致特征提取质量下降，限制了检测性能。为应对这些挑战，我们提出了感受野注意力引导的YOLO（RFAG-YOLO）方法，这是针对无人机图像中小目标检测而定制的YOLOv8的高级改进版本，重点在于提升特征表示能力和检测鲁棒性。为此，我们引入了一种新颖的网络构建模块，称为感受野网络模块（RFN模块），该模块利用动态核参数调整来增强模型捕捉精细局部细节的能力。为有效利用多尺度特征，我们基于RFN模块设计了一个增强的FasterNet模块，作为RFAG-YOLO主干网络的核心组件，能够在不同分辨率下实现稳健的特征提取。该方法通过分阶段下采样和RFN模块的层次化排列，实现了语义信息的平衡，确保在RFAG-YOLO的检测头之前有一个尺度感知特征融合（SAF）组件。该组件采用尺度注意力机制，对来自高层和低层的特征进行动态加权，促进更丰富的信息流动，并显著提高模型对复杂背景和尺度变化的鲁棒性。在VisDrone2019数据集上的实验结果表明，RFAG-YOLO在检测精度和效率方面均优于最先进的模型，包括YOLOv7、YOLOv8、YOLOv10和YOLOv11。特别是，RFAG-YOLO的mAP50达到了38.9%，相对于多个基准模型有了显著提升：比YOLOv7提高了12.43%，比YOLOv10提高了5.99%，与YOLOv8n和YOLOv11相比，分别有16.12%的显著提升。此外，与较大的YOLOv8s模型相比，RFAG-YOLO在仅使用其53.51%参数的情况下，达到了其mAP50性能的97.98%，凸显了其在性能与参数比方面的卓越效率，使其非常适合资源受限的无人机应用。这些结果凸显了RFAG-YOLO在现实世界无人机应用中的巨大潜力，特别是在光照变化、背景复杂和尺度多样等具有挑战性的条件下，对小目标进行准确检测的场景中。

关键词：无人机图像；YOLOv8；特征提取；小目标检测；注意力机制

1. 引言

目标检测是计算机视觉中的一项基本任务，在军事行动[1]、自动驾驶车辆[2]、安全监控[3]和遥感[4]等关键应用中发挥着重要作用。近年来，随着无人机数据的广泛覆盖和高分辨率特性，无人机图像分析在目标检测领域已成为各领域的重要工具[5]。在这些应用中，检测车辆、行人和关键基础设施等小目标，在环境监测、人类活动分析和关键设施安全等方面发挥着至关重要的作用。然而，由于无人机航拍图像存在分辨率低、背景复杂和尺度变化等因素，准确检测其中的小目标仍然是一项重大挑战。

在神经网络技术的快速发展和全球研究人员的持续创新推动下，目标检测领域取得了显著进展。这些进展显著提高了检测系统的准确性和效率，同时也拓宽了其在各种现实场景中的适用性。基于深度学习的目标检测方法主要分为两大范式：两阶段[6]和一阶段[7]方法。两阶段方法通常包括两个顺序步骤：（1）使用选择性搜索算法[8]或区域建议网络（RPN）[9]生成候选区域；（2）从这些区域中提取特征，并通过卷积神经网络进行分类。两阶段方法的典型例子包括基于区域的卷积神经网络（R-CNN）[10]、快速R-CNN[11]、更快R-CNN[9]和掩码R-CNN[12]。这些方法通过首先消除背景区域，然后对剩余候选区域进行详细分析，实现了高检测精度。然而，它们对大量计算资源的依赖往往导致推理速度较慢。相比之下，一阶段目标检测器将任务表述为回归问题，通过一次网络前向传播同时预测边界框坐标和类别标签，在准确性和效率之间提供了更好的平衡。一阶段检测器的典型例子包括你只看一次（YOLO）[13]和单发多框检测器（SSD）[14]。SSD依赖于手动定义的先验框，其大小和形状受经验设置影响较大，限制了其在不同场景下的适应性。此外，SSD对低层特征层的依赖影响了其检测小目标的能力，导致召回率较低。

尽管取得了这些进展，但在基于无人机的目标检测中仍存在几个关键挑战。首先，传统卷积操作的有限感受野难以捕捉航拍图像中物体的复杂空间关系和精细细节，特别是对于形状不规则或方向各异的目标。其次，无人机图像中显著的尺度变化以及小目标的存在，给特征提取和表示学习带来了巨大困难。传统的多尺度特征融合方法往往无法有效平衡不同尺度特征的贡献，导致检测性能不佳。第三，航拍图像中复杂多样的背景，结合光照条件和天气效应的变化，产生了显著的干扰，显著影响了检测准确性。

为应对目标检测中的上述挑战，我们提出了感受野注意力引导的YOLO（RFAG-YOLO）模型，这是基于YOLOv8的增强框架。首先，我们引入了一种新颖的网络组件，称为感受野网络模块（RFN模块），该模块通过动态调整卷积核权重，提高了模型捕捉复杂形状物体精细细节的能力。其次，为有效利用多尺度特征图并优化检测性能与计算效率之间的权衡，我们将FasterNet[15]与RFN模块集成，构建了RFAG-YOLO的主干网络。最后，我们在RFAG-YOLO的检测头之前引入了一个尺度感知特征融合（SAF）模块。该模块采用尺度注意力机制，动态融合多尺度特征图，从而提高模型对不同分辨率的适应性，并增强小目标的表示能力。本研究的主要贡献总结如下：

受感受野注意力（RFA）[16]概念的启发，提出了RFN模块。通过引入动态核参数调整，RFN模块解决了传统卷积中参数共享的限制，显著提高了RFAG-YOLO模型捕捉和强调局部区域判别特征的能力。
将RFN模块与FasterNet集成，构建了一个稳健的主干网络。该网络通过分阶段下采样和RFN模块的层次化排列，有效平衡了多分辨率特征图之间的语义信息，确保在不同尺度下实现全面的特征表示。

在RFAG-YOLO的检测头之前引入了一个SAF模块。利用尺度注意力机制，SAF模块动态细化特征表示，并通过自适应加权多尺度特征显著提高了空间定位准确性。

在VisDrone2019数据集上的综合实验表明，我们提出的RFAG-YOLO在检测性能上优于最先进的方法，同时在模型复杂度和检测准确性之间保持了平衡。所提出的方法有效解决了基于无人机的目标检测中固有的挑战，如小目标尺寸、光照变化、复杂背景和尺度多样等。

本文的其余部分组织如下。第2节回顾了目标检测的相关工作，包括YOLO系列的发展、针对无人机检测的YOLO改进以及基于Transformer的方法。第3节介绍了RFAG-YOLO的详细架构，包括RFN模块的设计原则和实现细节、与FasterNet主干的集成以及所提出的SAF模块。第4节描述了我们的实验方法，包括数据集准备、训练程序以及在VisDrone2019数据集上与最先进目标检测模型进行综合评估的结果，以及消融研究以验证每个提出组件的有效性。第5节对我们提出的方法进行了理论分析，考察了模型的局限性，并讨论了未来研究的潜在方向。最后，第6节总结了全文。

2. 相关工作

本节对三个关键领域的相关工作进行了全面回顾。我们首先追溯了YOLO系列的发展历程，该系列通过持续的架构创新和性能改进，彻底改变了实时目标检测领域。然后，我们考察了针对无人机图像小目标检测的最新进展，重点关注各种增强策略和架构修改。最后，我们对基于Transformer的目标检测方法进行了分析，这些方法代表了该领域的一个范式转变，但在资源受限的无人机应用中面临挑战。

2.1. YOLO系列的发展

由于其卓越的精度、效率和实用性，自2015年YOLOv1[17]问世以来，YOLO系列目标检测模型已成为该领域的基准。YOLOv1通过将目标检测视为回归问题，开创了现代一阶段检测器的先河。YOLOv2[18]通过Darknet-19、锚框和批量归一化等创新，提高了性能和稳定性，特别是在小目标检测方面。YOLOv3[19]通过引入特征金字塔网络（FPN）[20]和多尺度预测，增强了速度与精度的权衡，实现了更广泛目标尺寸的检测。

YOLOv4[21]通过集成CSPNet[22]、SPP-Block[23]、Mish激活函数[24]和先进的数据增强技术，取得了显著进展，显著提升了性能。YOLOv5[25]因其模块化设计而广受欢迎，该设计集成了GhostNet[26]和路径聚合网络（PANet）[27]，以及用户友好的实现。从YOLOv6[28]到YOLOv7[29]的后续版本，专注于轻量级架构、性能优化和简化部署。

2024年，YOLOv9[30]和YOLOv10[31]相继问世。YOLOv9引入了可编程梯度信息（PGI）和辅助可逆分支，显著增强了模型表达能力和训练效率。YOLOv10开创了统一的双分配策略，消除了训练过程中非极大值抑制（NMS）的需求，从而提高了性能并降低了推理延迟。

2.2. 针对无人机检测的YOLO改进

受YOLO系列目标检测模型进展的推动，研究人员提出了众多专门针对无人机图像中小目标检测的增强方法，从而开发出了多种无人机图像检测方法。基于YOLOv5，Zeng等人[32]引入了一种混合坐标注意力机制，以增强无人机图像中小目标的特征提取能力。他们进一步提出了一种优化的瓶颈架构，以提高小目标检测过程中物体与背景特征之间的判别能力。Shin等人[33]将可变形卷积[34]融入YOLOv5主干网络，利用三个核同时学习偏移量、掩码和特征表示，从而增强了小目标精细特征的提取能力。Chen等人[35]提出了一种多尺度特征金字塔网络（SAS-FPN），以有效整合浅层和深层特征图，显著提高了模型的特征提取能力。此外，他们还将Shuffle注意力机制[36]集成到主干网络中，以减轻复杂背景干扰的影响。Zhu等人[37]开发了TPH-YOLOv5，这是一种专门针对无人机捕获图像中目标检测而优化的模型。TPH-YOLOv5用基于Transformer的头部替换了传统的预测头部，利用自注意力机制提高了预测准确性。此外，TPH-YOLOv5还集成了卷积块注意力模块（CBAM）[38]，以提高密集杂乱场景中的目标定位能力。

2.3. 基于Transformer的目标检测

Transformer架构的兴起引发了目标检测领域的新一轮创新，为传统的基于CNN的方法提供了替代方案。这些基于Transformer的检测器在解决目标检测中长期存在的挑战方面展现出了显著潜力，特别是在处理复杂空间关系和全局上下文建模方面。DETR[39]通过将目标检测重新表述为直接集合预测问题，开创了范式转变，消除了传统的手工组件，如NMS和锚框生成。通过利用Transformer编码器-解码器架构和基于集合的全局损失以及二分匹配，DETR在保持概念简洁性的同时实现了具有竞争力的性能。基于DETR的成功，RT-DETR[40]通过引入结合CNN与Transformer的混合架构，解决了计算效率的挑战。通过用于多尺度特征处理的高效混合编码器和不确定性最小的查询选择，RT-DETR在保持实时推理速度的同时，相较于传统YOLO模型实现了卓越的性能。针对无人机应用，Drone-DETR[41]在RT-DETR的基础上，引入了有效小目标检测网络（ESDNet）和增强双路径特征融合注意力模块（EDF-FAM），在保持轻量级架构的同时，显著提高了小目标检测性能。

最近，D-FINE[42]通过重新定义DETR模型中的边界框回归任务，推动了实时目标检测的边界。通过其创新的精细分布细化（FDR）和全局最优定位自蒸馏（GO-LSD）组件，D-FINE在保持实时性能的同时实现了显著的定位精度。DEIM[43]框架通过引入密集一对一匹配和可匹配性感知损失，进一步增强了基于Transformer的检测器，显著加速了训练收敛，同时保持了高准确性。尽管这些基于Transformer的方法展现出了令人印象深刻的能力，但其计算需求和复杂架构使其不太适合资源受限的无人机应用。因此，改进YOLO框架对于现实世界的无人机检测场景来说，仍然是一种更为实用的方法。

3. 材料与方法

本节阐述了所提出的RFAG-YOLO模型的架构设计和技术创新，旨在解决无人机图像中目标检测面临的挑战，如目标尺寸小和背景复杂等问题。在介绍YOLOv8的网络结构之后，我们提供了所提出的RFAG-YOLO的总体架构。然后，基于YOLOv8作为基准框架，提出了三个关键创新点：（1）包含感受野注意力（Receptive Field Attention, RFA）的RFN模块；（2）具有层次化RFN模块排列的增强型FasterNet主干网络；（3）用于自适应多尺度特征融合的SAF模块。

3.1. YOLOv8网络介绍

在本研究中，我们选择YOLOv8作为基准网络进行改进，因为其结构简单且检测精度稳定。图1展示了YOLOv8的架构布局，其分为三个主要组件：

主干网络（Backbone）：主干网络是获取输入图像特征的关键元素。YOLOv8的主干网络主要由CBS（Conv-BN-SiLU）和C2f模块构成，其中CBS用于下采样，而C2f模块用于特征提取。
颈部（Neck）：YOLOv8的颈部组件采用了路径聚合网络-特征金字塔网络（PAN-FPN）结构，在FPN的基础上引入了自底向上的路径。该路径允许低层特征与高层特征再次融合，有助于捕获不同尺寸的目标并提高目标检测的准确性。
头部（Head）：头部生成最终的预测结果，包括边界框的位置和尺寸，以及每个框的类别概率。

图1. YOLOv8网络结构图。

为了解决基于锚点（anchor-based）方法的局限性，YOLOv8采用了无锚点预测（anchor-free）方法。该方法直接预测目标中心，无需预定义的锚点框，避免了偏移计算，从而减少了计算开销。无锚点机制无需预设锚点框尺寸，简化了模型架构并减少了参数数量，增强了模型检测不同尺寸目标的能力。为了提高边界框回归的精度，YOLOv8引入了分布焦点损失（Distribution Focal Loss, DFL）。DFL是一种专门用于边界框预测的损失函数，通过最小化预测和目标边缘位置分布之间的差异来提高定位精度。设 t l t_{l} tl和 t r t_{r} tr分别表示目标框左右边缘的离散分布， p l p_{l} pl和 p r p_{r} pr表示对应的预测分布。离散分布的长度记为 n n n，表示边界框边缘位置的可能离散点数量。DFL通过比较左右边缘的预测分布和目标分布来计算交叉熵损失，分别定义为：

L l = − ∑ i = 0 n − 1 t l ( i ) log ⁡ ( p l ( i ) ) L_{l}=-\sum_{i=0}^{n-1}t_{l}(i)\log(p_{l}(i)) Ll=−i=0∑n−1tl(i)log(pl(i))

和

L r = − ∑ i = 0 n − 1 t r ( i ) log ⁡ ( p r ( i ) ) L_{r}=-\sum_{i=0}^{n-1}t_{r}(i)\log(p_{r}(i)) Lr=−i=0∑n−1tr(i)log(pr(i))

其中， t l ( i ) t_{l}(i) tl(i)和 t r ( i ) t_{r}(i) tr(i)表示目标分布在第 i i i个离散位置的概率， p l ( i ) p_{l}(i) pl(i)和 p r ( i ) p_{r}(i) pr(i)表示预测分布中对应的概率。注意，DFL独立处理边界框的每条边缘。这使得每条边缘的损失可以单独计算，并根据预测和目标边界框的相对位置动态调整权重。这种独立处理提高了边界框的定位精度，尤其是对于非对称边界框。此外，通过强调预测和目标分布差异较大的区域，DFL有效减少了定位误差并提高了整体精度。

3.2. RFAG-YOLO架构概述

图2展示了所提出的RFAG-YOLO模型的架构设计，突出了其旨在提高无人机图像目标检测性能的关键创新点。与基准YOLOv8相比，RFAG-YOLO的主要增强集中在核心网络架构和检测模块，这些模块专门设计用于应对无人机目标检测的挑战。具体而言，RFAG-YOLO的主干网络将FasterNet与所提出的RFN模块集成，组织为四阶段层次化架构，以优化多尺度特征提取。每个阶段分别处理下采样比为1/4、1/8、1/16和1/32的特征图，使网络能够捕获不同尺度下的细粒度细节和高层语义信息。RFAG-YOLO的颈部结合了YOLOv8的PAN-FPN网络，该网络将自顶向下的FPN与自底向上的PANet结合，实现了高效的多级特征融合，增强了不同尺度目标的检测能力。此外，该架构采用了迭代双向特征传递，有效保留了高分辨率细节，同时整合了深层语义信息。为了解决单尺度特征图的局限性，在检测头之前集成了基于尺度注意力机制的SAF模块。该模块动态加权多尺度特征，增强了细粒度细节的表示，提高了检测性能。此外，这种集成使得RFAG-YOLO在预测阶段能够精确捕获目标对象的细节，显著提高了定位精度，并增强了模型理解复杂场景和多尺度检测目标的能力。

图2. RFAG-YOLO网络结构图。

3.3. RFN模块

在高空无人机图像中，小目标由于其像素尺寸有限和特征细节稀疏，容易被广阔的背景（如地形、建筑物和植被）所掩盖，从而给识别带来挑战。随着计算机视觉和深度学习领域的进步，注意力机制已成为解决这一挑战的关键策略。在卷积层中，相同的卷积核权重应用于输入特征图的所有空间位置，这被称为参数共享特性。虽然这种特性有助于减少总参数数量并提高计算效率，但也意味着在整个特征图上均匀应用相同的特征提取模式。当使用较大的卷积核时，这种统一处理可能对小目标检测不理想，因为特征图的不同区域可能需要不同的处理模式。

为了克服上述挑战，我们提出了一种基于感受野注意力（Receptive Field Attention, RFA）的创新特征提取组件------RFN模块。如图3所示，RFN模块的架构可分为两个主要阶段。首先，采用由部分卷积与两个 1 × 1 1\times1 1×1卷积组成的倒残差块，学习相对于原始输入的增量信息。随后，通过感受野注意力自适应调整卷积核中每个位置的权重，增强了RFN模块在局部区域捕获关键特征的能力，有效缓解了传统卷积中的参数共享问题。

图3. RFN模块结构图。

如图3所示，在残差结构阶段，主分支首先采用一个核尺寸为 3 × 3 3\times3 3×3的部分卷积层，处理特征图通道的四分之一。随后是两个逐点卷积层（ 1 × 1 1\times1 1×1卷积）。输出通过将主分支特征与输入特征图进行逐元素相加得到。这种高效的结构能够在保持低计算复杂度的同时，充分利用通道信息。

RFN模块的第二阶段是感受野注意力模块。对于尺寸为 C × H × W \mathsf{C}\times\mathsf{H}\times\mathsf{W} C×H×W（通道、高度、宽度）的输入，RFA首先采用核尺寸为 3 × 3 3\times3 3×3的分组卷积来扩展通道维度，生成感受野空间特征。其次，通过平均池化和 1 × 1 1\times1 1×1分组卷积，在保持空间分辨率的同时，增强特征图的深度。然后，使用softmax对特征图内的位置权重进行归一化，生成权重图。这里的权重图可以看作是一组卷积核。在感受野空间特征图的每个位置进行点积运算后，我们得到一个加权特征图。最后，将加权特征图重塑为 3 C × H × W 3\mathrm{C}\times\mathrm{H}\times\mathrm{W} 3C×H×W的形状，并使用标准的 3 × 3 3\times3 3×3卷积降低分辨率，生成最终输出。

一般来说，RFA的公式如公式（3）所示，其中 F F F是输入特征图， k k k表示卷积核的大小。输出特征图 F ′ ′ F'' F′′通过逐元素相乘注意力特征图 A A A和变换后的感受野空间特征图 F ′ F' F′得到：

F ′ ′ = Softmax ( GroupConv ( 1 × 1 ) ( AvgPool ( F ) ) ) × ReLU ( Norm ( GroupConv ( k × k ) ( F ) ) ) = A × F ′ \begin{array}{r l}{F^{\prime\prime}}&{=\text{Softmax}(\text{GroupConv}^{(1\times1)}(\text{AvgPool}(F)))\times\text{ReLU}(\text{Norm}(\text{GroupConv}^{(k\times k)}(F)))}\\ &{=A\times F^{\prime}}\end{array} F′′=Softmax(GroupConv(1×1)(AvgPool(F)))×ReLU(Norm(GroupConv(k×k)(F)))=A×F′

3.4. 基于RFN模块的改进型FasterNet主干网络

主干网络通常用于输入图像的特征提取。高分辨率特征图中的小目标包含详细的空域信息，这对于准确检测至关重要。然而，在下采样过程中，虽然感受野增大且语义信息丰富，但小目标的细粒度特征可能变得不那么明显。为了应对这一挑战，我们引入了基于RFN模块的改进型FasterNet作为RFAG-YOLO的主干网络。该架构结合了FasterNet的分段结构和RFN模块的高效特征提取能力，从而增强了模型在识别小目标方面的敏感性。

如图4所示，改进型FasterNet由四个连续的阶段组成，每个阶段以嵌入层或合并层开始，并配备多个RFN模块。嵌入层使用步长为4的 4 × 4 4\times4 4×4标准卷积，而合并层使用步长为2的 2 × 2 2\times2 2×2标准卷积。这些嵌入层或合并层有两个主要功能：一是降低输入的空间尺度，从而有效减少图像分辨率；二是增加通道容量，以提高模型的表示能力。在第一和第二阶段，我们分别部署了两个RFN模块。对于初始特征提取，尽可能保留原始图像的细节至关重要，尤其是在处理小目标时。在第三阶段，我们集成了八个RFN模块。此时，图像分辨率较低，但网络对图像内容有了更抽象和全面的理解。这一阶段有助于识别详细特征，辅助在各种背景下检测小目标。最后，在第四阶段，RFN模块的数量减少到两个。这一阶段旨在细化前几个阶段提取的特征，并为最终预测做准备。此外，减少构建块的数量也有助于控制模型的复杂性和降低计算需求。

图4. 改进型FasterNet的结构。

将RFN模块与FasterNet集成提供了几个关键优势，增强了模型在复杂场景中应对小目标检测挑战的能力。首先，RFN模块的残差结构与感受野注意力机制相结合，显著提高了FasterNet的特征提取效率。这种改进使模型能够更好地捕获小目标的上下文信息，这对于在杂乱环境中进行准确检测至关重要。其次，为了应对不同阶段特征图分辨率的变化，在FasterNet中实施了RFN模块的层次化排列。这种层次化排列确保每个阶段有效利用其特征图的独特特性，从而显著提高整体检测精度和鲁棒性。此外，通过合并RFN模块的通道扩展和空间维度压缩，模型的表示能力得到了有效提高。最后，将RFN模块与FasterNet集成不仅提高了小目标检测的有效性，还保持了较高的推理速度，使其适用于实时应用。

3.5. 基于尺度注意力的特征融合模块

YOLOv8的检测头在目标检测流程中起着关键作用，通过处理由FPN提取的多尺度特征图来生成最终的检测结果。检测头处理三个不同尺度的特征图，空间分辨率分别为 80 × 80 80\times80 80×80、 40 × 40 40\times40 40×40和 20 × 20 20\times20 20×20，分别对应于小目标（大于 8 × 8 8\times8 8×8像素）、中目标（大于 16 × 16 16\times16 16×16像素）和大目标（大于 32 × 32 32\times32 32×32像素）的检测。这种多尺度设计使模型能够有效处理不同尺寸的目标。然而，这种多尺度检测方法面临两个显著挑战，可能降低检测性能。首先，低分辨率特征图往往无法捕获小目标的细粒度细节，导致定位不准确和检测置信度降低。其次，在高分辨率特征图中，大目标的主导特征响应可能会抑制小目标的较弱响应，特别是由于大目标对邻近区域的空间影响。这种现象显著损害了小目标的检测和分类准确性。为了缓解这些挑战，我们提出了一个SAF模块，该模块在RFAG-YOLO的检测头之前集成，以增强多尺度特征表示。SAF模块通过动态加权和整合来自所有三个分辨率级别的信息，促进了不同尺度下的自适应特征处理。这种方法显著提高了模型定位和分类目标的能力，特别是小目标，具有更高的准确性。

尺度注意力模块通过一系列精心设计的操作生成注意力权重，如图5所示。该模块旨在根据特征的尺度相关性动态调整特征表示，增强模型处理多尺度目标的能力。首先，采用自适应平均池化来聚合特征图在宽度和高度维度上的空间信息，有效总结全局上下文信息，同时降低计算复杂度。

该操作将空间维度减少到 C × 1 × 1 \mathsf{C}\times1\times1 C×1×1，捕获整个特征图的全局上下文信息，并实现注意力权重的有效计算。接下来，使用一个 1 × 1 1\times1 1×1卷积层处理池化后的特征，减少通道维度并促进尺度相关信息的提取。该层将通道维度减少到1，将多通道信息压缩为单通道表示，封装了最显著的尺度相关特征。压缩后的特征随后通过ReLU激活函数，引入非线性以增强注意力机制的表达能力，并提高其建模复杂关系的能力。最后，应用HSigmoid激活函数将注意力权重归一化到[0,1]范围内，确保权重适合自适应特征缩放，并增强注意力机制的稳定性。生成的权重随后用于自适应调制对应的特征图，实现尺度感知的特征细化，从而提高模型在不同尺度下检测目标的准确性。

图5. SAF模块结构图。

如图5所示，SAF模块接收来自FPN三个不同级别的特征图。首先，我们使用卷积将所有特征图的通道维度调整为一致的大小。随后，通过对这些特征图进行上采样或下采样操作来实现空间分辨率对齐。对于多尺度特征融合过程，我们定义以下符号，其中 F i F_{i} Fi表示第 i i i级的特征图， F ′ F' F′表示第 i i i级的融合特征图， ScaleAttn ( ⋅ ) \text{ScaleAttn}(\cdot) ScaleAttn(⋅)表示尺度注意力函数， down ( ⋅ ) \text{down}(\cdot) down(⋅)和 up ( ⋅ ) \text{up}(\cdot) up(⋅)分别表示下采样和上采样操作。

对于分辨率最低的特征图（ 20 × 20 20\times20 20×20），SAF首先将更高层的特征图下采样以匹配其分辨率。随后，在下采样后的特征图上应用尺度注意力进行加权。加权特征图随后与当前特征图相加并除以2，得到该级别的融合特征图，并将其添加到输出列表中。这一步骤可以表示为：

F low ′ = F low + ScaleAttn ( down ( F mid ) ) 2 F_{\text{low}}'=\frac{F_{\text{low}}+\text{ScaleAttn}\big(\text{down}\big(F_{\text{mid}}\big)\big)}{2} Flow′=2Flow+ScaleAttn(down(Fmid))

对于分辨率最高的特征图（ 80 × 80 80\times80 80×80），SAF使用双线性插值将更低层的特征图上采样以匹配其分辨率。然后，类似于最低分辨率的处理过程，应用尺度注意力进行加权。加权特征图与当前特征图相结合，结果除以2，得到该级别的融合特征图；随后将其添加到输出列表中，可以表示为：

F high ′ = F high + ScaleAttn ( up ( F mid ) ) 2 F_{\text{high}}'=\frac{F_{\text{high}}+\text{ScaleAttn}\big(\text{up}\big(F_{\text{mid}}\big)\big)}{2} Fhigh′=2Fhigh+ScaleAttn(up(Fmid))

对于中间级别的特征图（ 40 × 40 40\times40 40×40），SAF对上层和下层的特征图都进行加权和融合，将结果除以3以得到该级别的融合特征图，并相应地将其添加到输出列表中。这一步骤表示为：

F mid ′ = F mid + ScaleAttn ( down ( F high ) ) + ScaleAttn ( up ( F low ) ) 3 F_{\text{mid}}'=\frac{F_{\text{mid}}+\text{ScaleAttn}(\text{down}(F_{\text{high}}))+\text{ScaleAttn}(\text{up}(F_{\text{low}}))}{3} Fmid′=3Fmid+ScaleAttn(down(Fhigh))+ScaleAttn(up(Flow))

4. 实验

本节对所提出的RFAG-YOLO模型进行了全面的实验评估，旨在验证其在解决无人机目标检测挑战（如小目标尺寸和复杂背景）方面的有效性。我们首先在VisDrone2019 [44]数据集上将我们的模型与基线模型YOLOv8进行了比较，结果表明在小目标检测方面取得了显著改进，同时保持了计算效率。接下来，我们进行了消融实验，以系统地评估每个提议组件（包括增强的FasterNet主干网络、RFN块和SAF模块）的贡献。与最先进的检测模型的比较进一步证实了RFAG-YOLO的优越性能。最后，为了进一步分析模型的行为，我们使用混淆矩阵和Grad-CAM进行了可视化实验。这些实验表明，即使在无人机拍摄的复杂场景中存在遮挡和杂乱背景的情况下，RFAG-YOLO也显著提高了小目标的定位和分类准确率。

4.1. 数据集

我们在VisDrone2019航拍图像数据集上对我们的模型进行了严格评估，该数据集是由中国天津大学机器学习与数据挖掘实验室的AISKYEYE团队精心策划的全面且多样化的图像集合。该数据集专为无人机视觉应用而设计，提供了丰富的场景来测试目标检测模型的鲁棒性和泛化能力。数据集被划分为训练集、验证集和测试集，分别包含6471张、548张和1610张图像。图6展示了VisDrone2019数据集中的代表性示例，展示了场景的多样性以及不同光照条件、目标尺度和背景复杂性所带来的挑战。该数据集涵盖了广泛的实际生活场景，包括城市、农村和高速公路环境，以及10个不同的目标类别，如行人、自行车、汽车、面包车、公共汽车和摩托车。这种多样性确保了数据集非常适合评估目标检测模型在现实世界无人机应用中的鲁棒性和泛化能力。

VisDrone2019数据集包含了各种具有挑战性的场景，这些场景准确地反映了现实世界的操作条件，使其成为评估目标检测算法的宝贵资源。该数据集包括密集拥挤的场景，这些场景以显著的目标重叠和交互为特征，如繁忙的十字路口和车辆和行人密集的停车场。由于遮挡和空间模糊性，这些场景对目标检测提出了重大挑战。

VisDrone2019数据集还具有多种天气条件，包括晴朗、雨天和雾天，以及多样化的光照条件，如明亮的日光、低光傍晚场景和强阴影。这些变化可以测试检测算法在不同环境条件下的鲁棒性。此外，VisDrone2019数据集中的图像包含不同程度的遮挡，其中目标被结构、植被或其他物体部分遮挡，以及由于不同的无人机飞行高度和相机角度而产生的多样化视角。这些因素进一步增加了检测任务的复杂性，使VisDrone2019数据集成为在现实和多样化操作条件下严格评估目标检测方法性能和鲁棒性的典范基准。

图6. VisDrone2019数据集中的部分图像

图7展示了关于VisDrone2019数据集的一些信息。面板(a)显示了数据集中各种目标标签的分布。行人和车辆在标注中占主导地位，而其余类别占比较小。面板(b)显示了一个二维散点图，揭示了图像中目标相对于其高度和宽度的长宽比分布。图中左下角颜色较深，表明数据集中小目标占主导地位。这种可视化分析强调了数据集对小目标检测的重视。

图7. VisDrone2019数据集中类别和目标尺寸分布的统计分析。(a) VisDrone2019数据集中的类别分布。(b) VisDrone2019数据集中的目标尺寸分布。

4.2. 评估指标

在目标检测任务中，通常使用以下术语和指标来评估模型预测与真实标签之间的关系，为性能评估和算法优化提供基础。

交并比（IoU）：IoU是目标检测中的一个基本指标，用于量化预测边界框与真实边界框之间的重叠程度。它在评估检测准确率方面起着关键作用，并且是非极大值抑制（NMS）过程的重要组成部分，其中它决定了重叠预测的冗余性。数学上，IoU可以定义为

I o U = O v e r l a p A r e a U n i o n A r e a = A i n t A p r e d + A a c t − A i n t I o U=\frac{O v e r l a p A r e a}{U n i o n A r e a}=\frac{A_{i n t}}{A_{p r e d}+A_{a c t}-A_{i n t}} IoU=UnionAreaOverlapArea=Apred+Aact−AintAint

其中 A i n t A_{i n t} Aint表示预测边界框与真实边界框之间的交集面积； A p r e d A_{p r e d} Apred和 A a c t A_{a c t} Aact分别表示预测边界框和真实边界框的面积。

非极大值抑制（NMS）：在目标检测任务中，由于滑动窗口或基于锚点的检测机制，模型经常为单个目标生成多个重叠的边界框。NMS用于通过首先根据置信度分数对边界框进行排序来消除冗余预测。选择置信度最高的框作为最终检测结果，同时抑制所有IoU超过预定义阈值的其他框。这个过程迭代地应用于所有剩余的框，确保得到一组精确且非冗余的检测结果。
真正例（TP）：该指标表示模型正确检测到了目标，即预测边界框与真实边界框之间的IoU超过了预定义的阈值。该指标对于评估模型的检测准确率至关重要。
假正例（FP）：当模型错误地检测到了不存在的目标或将背景区域误分类为特定目标类别时，就会发生FP。这种类型的错误通常被称为误报，可能会显著影响模型的准确率和整体可靠性。
假反例（FN）：当模型未能检测到图像中实际存在的目标时，就会发生FN。这种类型的错误通常被称为漏检，可能会降低模型的召回率，并且通常是由小目标尺寸、遮挡或复杂背景引起的。

基于这些基本概念，本研究中使用了几个评估指标来全面评估所提出模型的性能。

准确率：准确率量化了真正例（TP）检测相对于总检测数（TP + FP）的比例，定义为

P r e c i s i o n = T P T P + F P P r e c i s i o n=\frac{T P}{T P+F P} Precision=TP+FPTP

准确率是评估模型最小化假正例能力的关键指标，特别是在误报成本高昂的场景中。

召回率：召回率衡量了真正例（TP）检测相对于实际目标总数（TP + FN）的比例，定义为

R e c a l l = T P T P + F N R e c a l l=\frac{T P}{T P+F N} Recall=TP+FNTP

该指标评估了模型识别所有相关目标的能力，特别是在漏检不可取的场景中。高召回率值表示低假反例率，反映了模型在检测真实目标方面的鲁棒性。

平均精度均值（mAP）：mAP是一个综合指标，通过计算不同召回率水平下的平均精度（AP）来整合准确率和召回率。它提供了对模型在所有目标类别上性能的总体评估，是目标检测研究中的关键指标。为了计算mAP，首先通过计算精确率-召回率曲线下的面积来确定每个类别的AP。然后，这些AP值在所有类别上进行平均。数学上，mAP可以定义为

m A P = 1 N ∑ i = 1 n A P i m A P=\frac{1}{N}\sum_{i=1}^{n}A P_{i} mAP=N1i=1∑nAPi

其中 A P i AP_{i} APi表示第 i i i个类别的平均精度， N N N表示类别总数。

4.3. 实验环境

在本研究中，训练、验证和测试阶段在相同的实验条件下进行，以确保一致性和可重复性。值得注意的是，所有训练过程都是从头开始的，没有使用预训练权重，以便公平地评估模型的学习能力。详细的硬件配置和超参数设置分别总结在表1和表2中。

4.4. RFAG-YOLO与基线模型YOLOv8的比较

为了验证RFAG-YOLO在无人机拍摄图像中识别小目标方面的性能，我们使用广泛认可的VisDrone2019公共数据集进行了比较实验。在这些实验中，我们保持了与其他训练条件的一致性，以比较RFAG-YOLO、YOLOv8n和YOLOv8s的性能。

图8展示了YOLOv8n、RFAG-YOLO和YOLOv8s在训练过程中的性能趋势。可以观察到，在整个训练过程中，RFAG-YOLO模型的性能始终优于YOLOv8n，并且其性能曲线更接近YOLOv8s。这表明RFAG-YOLO不仅在最终性能方面表现出色，而且在训练过程中也表现出更高的稳定性。此外，随着训练轮数的增加，RFAG-YOLO的性能提升变得更加显著，最终达到了更高的准确率水平，这表明该模型具有从复杂场景中学习的更强能力。

表3提供了YOLOv8n、RFAG-YOLO和YOLOv8s的具体性能指标。根据数据，RFAG-YOLO模型达到了49.6%的检测准确率，相较于YOLOv8n（44.5%）有了显著提升。同时，RFAG-YOLO的召回率也有所提高，达到了37.8%，高于YOLOv8n的33.8%。此外，RFAG-YOLO的mAP50指标达到了38.9%，非常接近YOLOv8s的水平。重要的是，在要求高置信度的严格条件下，RFAG-YOLO的mAP50-95指标达到了23.1%，显著优于YOLOv8n（19.5%）。这些数据表明，RFAG-YOLO在各种置信度阈值下都保持了高稳定性和准确率。

在资源效率方面，RFAG-YOLO需要更多的参数（5.94 M）并产生更高的计算成本（15.7 GFLOPs），相较于YOLOv8n。然而，与YOLOv8s相比，考虑到检测性能的显著提升，这些增加是相对平衡的。我们认为这是在模型复杂度和准确率之间的明智权衡。此外，尽管与YOLOv8n和YOLOv8s相比，RFAG-YOLO的每秒帧数（FPS）率相对较低，但它仍然保持了足够的实时处理能力，以满足无人机图像实时目标检测等应用的需求。

图8. YOLOv8n、RFAG-YOLO和YOLOv8s在VisDrone2019数据集上的训练曲线比较。(a) 训练过程中的精确率曲线。(b) 训练过程中的召回率曲线。(c) 训练过程中的mAP50曲线。(d) 训练过程中的mAP50-95曲线。
表3. RFAG-YOLO与YOLOv8n和YOLOv8s在VisDrone2019数据集验证数据上的比较。

|-----------|--------|--------|----------|-------------|-------|-----------|-------|---|
| 模型 | 精确率（%） | 召回率（%） | mAP50（%） | mAP50-95（%） | 参数（M） | GFLOPs（G） | FPS |
| 模型 | 精确率（%） | 召回率（%） | mAP50（%） | mAP50-95（%） | 参数（M） | GFLOPs（G） | FPS | |
| YOLOv8n | 44.5 | 33.8 | 33.5 | 19.5 | 3.2 | 8.1 | 121.1 |
| RFAG-YOLO | 49.6 | 37.8 | 38.9 | 23.1 | 5.94 | 15.7 | 82.0 |
| YOLOv8s | 51.6 | 38.8 | 39.7 | 23.8 | 11.1 | 28.5 | 116.0 |

从表4可以看出，RFAG-YOLO在所有类别上的mAP50指标都始终优于YOLOv8n。值得注意的是，对于结构复杂或小尺寸的目标类别（如"自行车"、"三轮车"和"遮阳三轮车"），性能提升尤为显著，这强调了其处理复杂场景和增强微小细节检测的能力。此外，RFAG-YOLO在"卡车"等类别的检测准确率上甚至超过了更大的YOLOv8s模型，表明我们的改进超越了简单的模型缩放。

总之，通过精心设计的架构改进，RFAG-YOLO实现了检测准确率和效率的双重优化，在计算资源和性能提升之间取得了良好的平衡。它提供了出色的精确率、召回率和mAP指标，并优化了计算资源的利用。因此，它为现实世界的应用提供了一种高效且实用的方法，特别是在需要高精度目标检测的场景中。
表4. VisDrone2019数据集上各类别mAP50的比较。

|-------|---------|-----------|---------|
| 类别 | YOLOv8n | RFAG-YOLO | YOLOv8s |
| 行人 | 35.1 | 41.4 | 43.0 |
| 人群 | 26.7 | 31.3 | 33.2 |
| 自行车 | 8.2 | 11.1 | 12.8 |
| 汽车 | 76.1 | 79.3 | 79.8 |
| 面包车 | 39.0 | 44.1 | 44.7 |
| 卡车 | 30.0 | 37.6 | 36.5 |
| 三轮车 | 22.4 | 28.8 | 28.0 |
| 遮阳三轮车 | 11.6 | 16.7 | 15.9 |
| 公共汽车 | 48.5 | 55.6 | 57.0 |
| 摩托车 | 36.7 | 43.0 | 45.3 |

4.5. 消融实验

未修改的YOLOv8n作为基准模型，我们在VisDrone2019数据集上进行了一系列消融实验，以验证我们提出的改进方法的有效性。最初，我们用FasterNet替换了YOLOv8n的原始主干网络，并评估了性能变化。随后，我们逐步整合了其他创新技术，如SAF模型和RFN块，以进一步提高模型性能。表5总结了我们广泛的消融实验结果，其中特定模块的激活用√表示，组件的禁用用符号X表示。该表展示了每个组件对整体性能提升的增量贡献。

在消融实验中，我们使用VisDrone2019验证集作为基准，系统地评估了RFAG-YOLO模型中关键组件的个体贡献。如表5所示，我们的研究结果表明，基准YOLOv8n的精确度为44.5%，mAP50为33.5%。引入FasterNet主干网络后，模型准确率提升至46.5%，mAP50达到35.3%。这一显著提升可归因于FasterNet针对高效运算的设计。其多阶段架构自然生成了不同尺度的特征图------这一能力对于目标检测任务至关重要，因为不同大小的目标可能在不同的特征层级上得到最佳检测。
表5. VisDrone2019数据集上的消融实验结果，其中红色粗体表示最佳性能。

|-----------|-----------|-----------|---------------|------------|-----------|--------------|
| FasterNet | RFN Block | SAFModule | Precision (%) | Recall (%) | mAP50 (%) | mAP50-95 (%) |
| | | Y | 44.5 | 33.8 | 33.5 | 19.5 |
| | X | X | 46.5 | 34.4 | 35.3 | 20.6 |
| | X | | 46.9 | 35.1 | 35.9 | 21.3 |
| | | | 49.2 | 36 | 37.2 | 21.9 |
| | | | 49.6 | 37.8 | 38.9 | 23.1 |

随后，即使没有FasterNet，SAF模块的引入也显著提高了召回率和mAP指标。这一结果表明，该机制改善了不同尺度下的特征表示。SAF模块的有效性源于其能够在检测头之前对多尺度特征图进行加权融合，从而丰富每个尺度的细节信息，并提高模型的特征表示能力。

当FasterNet与RFN块（无SAF模块）结合时，模型性能达到了新的阈值，准确率为49.2%，mAP50为37.2%。这一显著提升可归因于RFN块的独特设计：传统卷积层难以准确捕捉复杂的局部特征，而我们的RFN块则结合了可学习的权重图，能够根据输入图像特征调整卷积核权重。这一独特能力使网络能够专注于关键区域，同时忽略无关的背景细节，从而提高了模型在检测小目标时的性能。

RFN块在FasterNet各阶段的分布经过了精心优化，以平衡计算效率和特征表达。通过根据特征图的尺度和复杂度在各阶段调整RFN块的数量，我们实现了感受野的自适应优化。这确保了从精细细节到更广泛语义理解的所有层级上都能实现最佳的特征表达。为了保持计算效率，我们在早期阶段部署了较少的块，以最小化高分辨率特征图上的昂贵计算，同时在特征图较小的深层阶段增加块的数量，从而有效地提升了高级语义特征的提取能力。

最终，当FasterNet、RFN块和SAF模块共同应用于RFAG-YOLO模型时，模型展现出了最佳性能，准确率、召回率和mAP50分别显著提升至49.6%、37.8%和38.9%。这些结果不仅强调了每种技术的个体有效性，还展示了它们之间的协同作用，共同推动了模型性能的显著提升。

4.6. 与其他先进模型的比较

为了展示RFAG-YOLO相较于其他领先目标检测模型的优势，我们对各种最先进的检测方法进行了全面的比较分析。比较对象包括基于CNN的模型，如YOLOv5n、YOLOv7、YOLOv8n、TPH-YOLO、YOLOv10n和YOLOv11n，以及基于Transformer的架构，包括RT-DETR-R18和D-FINE-S。所有模型均在相同的训练条件下进行评估，以确保比较的公平性。

从表6可以看出，RFAG-YOLO在准确率和计算效率之间取得了良好的平衡，展现出了令人印象深刻的检测能力。虽然RT-DETR-R18在mAP指标上略胜一筹（mAP50为42.5%，mAP50-95为24.5%），但它需要更多的计算资源，参数数量为19.9M，浮点运算次数为57.0G FLOPs。相比之下，RFAG-YOLO仅使用5.9M参数和15.7G FLOPs就实现了具有竞争力的性能（mAP50为38.9%，mAP50-95为23.1%），显示出更高的效率。与专门为无人机图像检测定制的TPH-YOLO模型相比，RFAG-YOLO在mAP50（提高了6.0%）和mAP50-95（提高了5.4%）方面均取得了显著提升。此外，与最新版本的YOLO模型（即YOLOv11）相比，RFAG-YOLO在mAP50和mAP50-95方面分别提高了5.4%和3.6%。
表6. RFAG-YOLO与其他模型在VisDrone2019数据集上的比较。

|-------------|-----------|--------------|------------|------------|
| Model | mAP50 (%) | mAP50-95 (%) | Params (M) | GFLOPs (G) |
| YOLOv5n | 32.9 | 19.0 | 2.6 | 7.7 |
| YOLOv7 | 34.6 | 18.0 | 6.2 | 13.8 |
| YOLOv8n | 33.5 | 19.5 | 3.2 | 8.1 |
| TPH-YOLO | 32.9 | 17.7 | 7.2 | 36.8 |
| YOLOv10n | 36.7 | 19.6 | 2.3 | 6.7 |
| YOLOv11n | 33.5 | 19.5 | 2.6 | 6.5 |
| RFAG-YOLO | 38.9 | 23.1 | 5.9 | 15.7 |
| D-FINE-S | 42.3 | 23.4 | 10.2 | 24.9 |
| RT-DETR-R18 | 42.5 | 24.5 | 19.9 | 57.0 |

此外，如表7所示，RFAG-YOLO在VisDrone2019数据集的大多数类别中均展现出了卓越的性能。特别是在行人、汽车等关键类别中，我们的模型分别取得了41.4%和79.3%的令人印象深刻的mAP50分数，显著优于大多数轻量级模型。虽然RT-DETR-R18和D-FINE-S在某些类别中表现出略高的分数，但它们是以更高的计算复杂度为代价的。RFAG-YOLO在准确率和效率之间保持了强大的平衡，展示了其在现实世界无人机检测应用中的实用价值。
表7. VisDrone2019数据集各类别的平均精确度比较。

|-----------------|---------|--------|---------|----------|----------|----------|-----------|----------|-------------|
| Category | YOLOv5n | YOLOv7 | YOLOv8n | TPH-YOLO | YOLOv10n | YOLOv11n | RFAG-YOLO | D-FINE-S | RT-DETR-R18 |
| pedestrian | 34.6 | 41.2 | 35.1 | 41.1 | 34.7 | 35.4 | 41.4 | 43.5 | 44.9 |
| people | 27.6 | 37.0 | 26.7 | 32.9 | 27.8 | 27.7 | 31.3 | 39.0 | 39.2 |
| bicycle | 8.3 | 7.7 | 8.2 | 9.9 | 8.0 | 8.2 | 11.1 | 20.5 | 18.8 |
| car | 75.4 | 77.5 | 76.1 | 73.7 | 75.4 | 76.1 | 79.3 | 81.0 | 81.7 |
| van | 38.3 | 36.7 | 39.0 | 35.2 | 37.3 | 39.9 | 44.1 | 47.2 | 48.3 |
| truck | 28.6 | 28.1 | 30.0 | 27.3 | 28.7 | 28.8 | 37.6 | 36.2 | 36.2 |
| tricycle | 22.0 | 18.8 | 22.4 | 18.4 | 19.9 | 21.1 | 28.8 | 31.5 | 32.0 |
| awning-tricycle | 12.1 | 9.7 | 11.6 | 10.3 | 11.6 | 12.3 | 16.7 | 17.5 | 15.9 |
| awning-tricycle | 46.5 | 44.9 | 48.5 | 41.4 | 45.8 | 48.6 | 55.6 | 53.8 | 54.9 |
| bus motor | 35.5 | 44.5 | 36.7 | 38.8 | 36.7 | 37.1 | 43.0 | 54.5 | 53.5 |

4.7. 可解释性实验

我们使用混淆矩阵、类激活图可视化和最终检测结果图对RFAG-YOLO的性能和特性进行了详细分析。这一综合方法揭示了模型的识别准确率和泛化能力，同时揭示了其内部的决策机制。

如图9所示，混淆矩阵分析揭示了分类准确率的显著提升。与YOLOv8n的混淆矩阵相比，RFAG-YOLO的混淆矩阵在对角线上显示了更高的值，表明正确分类的概率更高。这一提升可归因于RFA通过分组卷积和全局平均池化根据核大小生成感受野空间特征图的能力，从而在保持空间结构的同时增强了通道独立性。尽管引入了额外的特征细化计算步骤，但RFA通过1×1卷积和分组策略等设计保持了高计算效率。

此外，与YOLOv8n相比，RFAG-YOLO在左下三角区域的值更低，表明漏检的概率更低。这一改进表明，RFAG-YOLO能够更好地捕捉场景中的所有相关目标，有效地解决了其前身模型检测不足的问题。

我们的Grad-CAM分析进一步揭示了模型的注意力机制。如图10所示，RFAG-YOLO的热图展示了更集中、更精确的高激活区域模式，即使对于通常被忽视的微小目标也是如此。这些可视化结果突出了我们的架构改进，特别是RFN块和SAF模块如何协同工作，以增强模型对精细细节和边缘的敏感性。关键区域的较暖颜色表明，我们的模型成功学会了将注意力分配给相关特征，同时抑制背景噪声。

图9. VisDrone2019数据集上不同模型之间的归一化混淆矩阵比较。(a) YOLOv8n模型的混淆矩阵。(b) 我们提出的RFAG-YOLO模型的混淆矩阵。

图11所示的定性检测结果为我们的理论改进提供了令人信服的实证验证。在相同的测试条件下，RFAG-YOLO在小规模目标上展现出了更高的定位精度，与基准模型相比，减少了误报和显著减少了漏检。这一增强的检测能力在目标分布密集且背景复杂的挑战性场景中尤为明显。在不同尺度目标上的稳健性能可归因于我们架构创新的协同效应：FasterNet固有的多尺度特征层次结构有效地捕捉了不同分辨率下的目标，而SAF模块的自适应特征融合机制则智能地聚合和细化了这些多尺度表示。这些定性结果与我们的定量发现相一致，并进一步验证了我们在现实世界检测场景中提出的改进方法的有效性。

图10. VisDrone2019数据集上检测热图可视化的比较。(a,d) 展示复杂停车场景的原始无人机图像。(b,e) YOLOv8n检测输出的热图可视化。(c,f) 我们提出的RFAG-YOLO检测输出的热图可视化。

图11. VisDrone2019数据集上目标检测结果的比较。(a,d) 展示包含多辆汽车的复杂停车场景的原始无人机图像。(b,e) YOLOv8n的检测结果。(c,f) 我们提出的RFAG-YOLO模型的检测结果。

5. 讨论

本文提出的RFAG-YOLO模型在VisDrone2019数据集上相较于基线YOLOv8n模型展现出显著改进，特别是在小目标检测任务中。这一成功归因于RFN模块的可学习权重图，该模块能够根据输入图像特征自适应调整卷积核权重。借鉴Zhang等人的见解，RFN模块利用感受野注意力（RFA）来关注感受野空间特征和有效注意力权重，为大尺寸卷积核提供了显著的性能提升，且计算开销极小。此外，SAF模块实现了多尺度特征图的加权融合，通过分组卷积和策略池化操作，在保持计算效率的同时增强了模型的特征表示能力。

尽管基于Transformer的检测模型如RT-DETR和D-FINE通过端到端架构和创新边界框回归展示了卓越的准确性，但本文的实验分析揭示了它们在无人机应用中的局限性。自注意力机制和复杂架构的计算开销对资源受限的无人机平台部署构成了重大挑战。受FasterNet高效设计原则的启发，RFAG-YOLO采用了阶段式架构，在不同网络层级策略性地分布RFN块，实现了检测性能与计算效率之间的最佳平衡。跨尺度的自适应计算资源分配使得有效特征提取得以实现，同时保持了效率，使RFAG-YOLO特别适合于现实世界的无人机应用。

尽管取得了令人鼓舞的结果，但本文方法仍存在一些局限性。RFN块虽然有效增强了特征表示，但相较于标准卷积引入了额外的参数和轻微的计算开销。此外，尽管SAF模块改进了多尺度特征融合，但其效果可能受到640×640像素固定输入分辨率的限制，这可能限制了高分辨率无人机图像中极小目标的检测。

展望未来，本文确定了两个关键研究方向。首先，旨在探索更轻量级的注意力机制，以在保持检测准确性的同时进一步降低计算成本，可能借鉴近期基于Transformer模型的效率设计原则。其次，考虑到现代高速相机现在能够以高帧率提供数百万像素的分辨率，计划研究处理高于当前640×640输入尺寸的高分辨率输入图像的方法，并优化特征提取中的后续下采样策略，因为这一限制可能从根本上影响小目标检测性能。这些改进将进一步增强RFAG-YOLO在无人机实际应用中的潜力。

6. 结论

本文提出了RFAG-YOLO，一个专门设计用于解决无人机图像中小目标检测挑战的先进目标检测框架。通过整合新颖的RFN块和增强的FasterNet主干网络，RFAG-YOLO显著提高了模型捕捉细粒度局部细节和利用尺度特征的能力。SAF模块的引入通过动态加权不同层的特征进一步增强了模型的鲁棒性，使得在复杂条件下能够获得更丰富的信息流和改进的检测准确性。在VisDrone2019数据集上的广泛实验表明，RFAG-YOLO优于最先进的模型，包括YOLOv7、YOLOv8、YOLOv10和YOLOv11。具体而言，RFAG-YOLO实现了38.9%的mAP50，相较于YOLOv7提高了12.43%，相较于YOLOv10提高了5.99%，相较于YOLOv8n和YOLOv11提高了16.12%。此外，RFAG-YOLO在仅使用YOLOv8s模型53.51%参数的情况下，达到了其mAP50性能的97.98%，凸显了其在性能-参数比方面的卓越效率。这些结果强调了该模型在资源受限的无人机应用中的适用性，其中计算效率和检测准确性至关重要。RFAG-YOLO的成功在于其能够在多分辨率特征图之间平衡语义信息，有效解决传统卷积层的局限性，并动态适应尺度变化和复杂背景。这些进步使RFAG-YOLO成为现实世界无人机应用的一个有前途的解决方案，特别是在需要准确检测小目标的场景下，如光照变化、复杂背景和尺度多样等挑战性条件。