SMA-YOLO：一种基于无参注意力机制和多尺度特征融合的改进YOLOv8算法，用于无人机图像中的小目标检测

摘要

https://www.mdpi.com/2072-4292/17/14/2421

针对复杂场景和密集分布的小目标，在无人机图像的小目标检测场景中，这经常导致严重的误检和漏检。因此，我们提出了一种无人机图像小目标检测算法，命名为SMA-YOLO。首先，在骨干网络中集成了一个无参的简单切片卷积模块，对特征图进行切片和增强，以有效保留小目标的特征。随后，为了增强上下层之间的信息交换，我们设计了一个特殊的多跨尺度特征金字塔网络。网络中的C2f-分层-幻影卷积模块通过细粒度的多尺度特征融合有效减少了信息损失。最终，自适应空间特征融合检测头引入了额外的P2检测头以增强特征图的分辨率，从而更好地定位小目标。此外，采用ASFF机制通过过滤掉多尺度特征融合过程中的信息冲突来优化检测过程，从而显著优化了小目标检测能力。以YOLOv8n为基线，SMA-YOLO在VisDrone2019数据集上进行评估，实现了mAP@0.5提升7.4%，模型参数量减少13.3%，并且我们在VAUDT和RSOD数据集上验证了其泛化能力，这证明了我们方法的有效性。

关键词: 无人机图像；特征融合；小目标；YOLOv8；SMA-YOLO

1. 引言

近年来，包括农业 [1]、交通 [2] 和工业 [3] 在内的越来越多领域正在利用无人机检测技术 [4--6]。然而，由于无人机的高空和斜视成像特性，地面物体通常显得极小，使得检测算法难以准确识别。此外，如图1所示，复杂背景、密集小目标、模糊和夜间情况等因素进一步加剧了准确小目标检测的挑战。

深度学习的进步推动了计算机视觉应用中物体检测方法学 [7] 的重大创新。目前，主流检测方法学分为两类：两阶段和单阶段方法。代表性的两阶段检测方法学，包括Faster RCNN [8]、Cascade RCNN [9] 和 Mask RCNN [10]，以其高检测精度而闻名，但通常处理速度较慢。相比之下，SSD [11] 开创了单阶段检测，随后出现了RetinaNet [12] 和YOLO [13] 等方法。除了这两种检测算法外，还存在另一类视觉Transformer，包括DETR [14] 和 Swin Transformer [15]，它们通过将图像分割成顺序的补丁并应用自注意力机制进行物体检测。虽然视觉Transformer可以简化整体架构，但其高计算需求使其不适合部署在资源受限的无人机设备上。单阶段检测器在精度和效率之间提供了更好的权衡，使其更适合与无人机平台集成。

图 1. (a) 复杂背景。 (b) 密集小目标。 (c) 模糊。 (d) 夜间情况。可见的中文字符不影响科学理解。

尽管YOLOv8 [16] 在一般物体检测任务中表现出强大的性能，但其检测小目标的能力仍然有限，特别是在无人机图像中，小目标普遍存在且经常被复杂背景遮挡。因此，增强YOLOv8在无人机图像中的小目标检测能力具有双重意义：既推进了计算机视觉理论，又满足了空中监视应用的关键需求。在此背景下，本文提出了SMA-YOLO，一种基于YOLOv8的算法，专为无人机图像中的小目标检测而设计，并在VisDrone2019 [17] 数据集上进行了评估。本文的主要创新点如下：

1. 我们提出了一种无参的简单切片卷积来替代骨干网络中的标准卷积。通过策略性地划分特征图并结合SimAM [18] 注意力，该模块有效地保留并增强了小目标的判别性特征。
1. 设计了一种多跨尺度特征金字塔网络来优化颈部网络中的特征融合。通过其独特的多层次和跨尺度连接结合C2f-HPC模块，我们的方法实现了细粒度的多尺度特征整合，显著减少了复杂场景中小目标的信息损失。
1. 我们开发了一个自适应空间特征融合检测头，专门为小目标增加了一个额外的P2检测头。通过实施ASFF [19] 机制来解决多尺度融合过程中的特征冲突，所提出的结构大幅提高了小目标的检测精度。

2. 材料

2.1. YOLOv8

如图2所示，YOLOv8架构包含三个关键组件：骨干网络、颈部网络和头部网络。骨干网络采用改进的C2f模块取代了传统的跨阶段部分结构，其中每个残差瓶颈集成了双卷积层以增强上下文信息流。值得注意的是，开发了更高效的空间金字塔池化快速变体作为传统SPP [20] 的升级，通过顺序池化操作实现更优的特征表示。对于边界框回归，YOLOv8结合了完全交并比损失以更好地处理几何关系和宽高比变化。对于特征融合，YOLOv8采用基于路径聚合网络 [22] 的颈部结构，通过双向跨尺度连接系统地组合分层特征。该设计整合了低层次的空间细节和高层次的语义信息，展示了有效的特征融合。检测头进一步实现了分布焦点损失 [23]，将边界框坐标建模为概率分布以增强小目标的定位精度。检测头保持了单阶段检测器的效率优势，同时优化了基于锚框的机制。通过在结构简单性和检测精度之间进行战略性平衡，YOLOv8避免了通常与传统锚框方法相关的计算开销，而不会影响性能。CIoU和DFL的结合解决了大规模几何对齐和细粒度定位精度的问题。

2.2. 无人机图像小目标检测

无人机图像中的小目标检测 [24,25] 已成为计算机视觉领域一个关键的研究挑战。最近的进展主要集中在架构修改和优化策略上，每种方法都有其独特的优势和局限性。

张等人 [26] 提出了一个结合模型融合、级联网络和可变形卷积的联合优化框架，在VisDrone2019上取得了最先进的性能。然而，多种复杂机制的整合显著增加了计算开销，降低了实际部署效率。类似地，LAR-YOLOv8 [27] 通过双分支注意力和视觉Transformer块增强了特征表示，但其复杂的架构导致了显著的推理延迟。

在检测头优化领域，DarkNet-RI [28] 引入了一种基于分类的定位方法和改进的非极大值抑制处理。虽然对孤立物体有效，但其性能在高遮挡场景中严重下降。徐等人的DotD [30] 指标通过归一化质心距离解决了小目标的交并比敏感性，但额外的几何计算增加了处理时间。

基于锚框的改进显示出特别的潜力，如詹等人 [31] 所示，他们重新设计了YOLOv5中的锚框尺寸并采用了广义交并比，实现了mAP的提升。然而，他们的固定锚框策略难以应对无人机图像中常见的极端尺度变化。TPH-YOLOv5 [33] 通过Transformer预测头克服了这一限制，但需要更多训练数据以实现稳定收敛。

图 2. YOLOv8的结构。

浅层特征的利用仍然是一个关键挑战。DS-YOLOv7 [34] 采用SFN技术和LDSPP模块来增强边缘信息，但其多分支设计增加了参数。IMCMD_YOLOv8_small [35] 采取了一种替代方法，通过移除P5层并专注于浅层特征融合，但这以完全丧失大目标检测能力为代价。

3. 方法

无人机图像中的小目标检测由于其固有的有限像素表示和复杂环境干扰而带来独特的挑战，这显著降低了YOLOv8的特征表示能力。为了解决上述问题，我们提出了SMA-YOLO，一种通过三个集成创新系统地改进小目标检测的增强架构。如图3所示，我们的框架首先引入简单切片卷积模块来替代标准骨干卷积，利用特征图划分和SimAM注意力机制来放大小目标的细粒度细节。然后，多跨尺度特征金字塔网络通过跨尺度融合路径和新型的C2f-HPC模块进行了优化，创建更具判别性的特征表示，在不同尺度上保留关键的小目标信息。最后，该架构结合了自适应空间特征融合检测头，具有专门用于小目标的P2检测分支，其中ASFF机制动态平衡多尺度特征的贡献，以有效过滤多尺度特征融合中的冲突信息。该综合方法在保持一定处理速度的同时，通过跨所有网络组件的协同改进显著增强了其小目标检测能力。

图 3. SMA-YOLO网络的结构。

3.1. 简单切片卷积

传统卷积神经网络在小目标检测中的性能下降主要源于特征提取架构不足以及在分层处理过程中的渐进性信息丢失。如图4所示，我们的简单切片卷积模块通过多阶段处理流水线解决了这些限制。输入特征图首先通过带有批归一化和SILU激活函数的跨步卷积对称划分为四个子区域。然后，每个分区进入包含SimAM增强的残差单元和具有特征划分操作的过渡层的并行增强块，其中二进制激活引入了受控的稀疏性以保留关键的高频细节。

图5c中描绘的三维注意力机制与传统的1D通道或2D空间注意力方法有根本区别。通过顺序特征生成、跨维度融合和层次扩展同时对通道-高度-宽度关系进行建模，SimAM生成了更具判别性的3D权重，这些权重本质上放大了小目标特征。这个过程自动为那些激活值与平均激活值偏差更大的较小物体分配更强的权重，而具有突出纹理的较大物体由于其固有的可检测性而得到成比例较少的增强。

图 4. SSC的结构以及SWS模块的内部原理。

图 5. (a) 生成通道一维权重。 (b) 生成空间二维权重。 (c) 生成三维权重。在每个子图中，X表示输入特征图；C、H和W分别表示通道数、高度和宽度。不同的颜色表示沿着不同维度的不同注意力权重。

SSC模块提供了分辨率保留和自适应特征增强的双重优势，且不引入任何额外参数。尽管SimAM被称为"无参"注意力机制，但这个术语特指在学习过程中没有像权重或偏置这样的可训练参数。在内部，SimAM确实包含轻量级的操作，但这些都是固定的数学运算，不涉及任何可学习参数。SimAM模块的原理源于空间抑制现象 [36]。它假设那些表现出与其周围神经元不同激活模式的神经元携带更关键的信息。SimAM为每个神经元 ttt 定义了一个能量函数 ete_tet，衡量其与同一通道内其他神经元的线性可分性。至关重要的是，SimAM得出了最小能量 et∗e_t^*et∗ 的快速闭式解；公式如下：

et∗=4(σ^2+λ)(t−μ^)2+2σ^2+2λe_{t}^{*}=\frac{4\big(\hat{\sigma}^{2}+\lambda\big)}{\big(t-\hat{\mu}\big)^{2}+2\hat{\sigma}^{2}+2\lambda}et∗=(t−μ^)2+2σ^2+2λ4(σ^2+λ)

这里，μ^\hat{\mu}μ^ 和 σ^2\hat{\sigma}^{2}σ^2 是输入特征图整个通道上计算得到的均值和方差，ttt 是目标神经元的激活值，λ\lambdaλ 是一个小的固定超参数（在我们的实验中设为 10−410^{-4}10−4）以确保数值稳定性。值得注意的是，这个解仅依赖于特征统计，不涉及任何可学习参数。神经元 ttt 的重要性权重由 1/et∗1/e_t^*1/et∗ 给出。较低的 et∗e_t^*et∗ 表示较高的独特性和重要性。最终的特征细化是通过与重要性图的sigmoid门控版本进行逐元素乘法来执行的；公式如下：

X~=sigmoid(1E)⊙X\widetilde{X}=sigmoid\left(\frac{1}{E}\right)\odot X X =sigmoid(E1)⊙X

其中 EEE 聚合了所有 et∗e_t^*et∗ 值。这个操作选择性地增强了信息丰富的神经元，同时抑制了相关性较低的神经元，模拟了生物视觉中注意力的增益效应。

切片操作保持了否则会在标准卷积中丢失的细粒度空间信息，而3D注意力机制则动态地重新校准所有维度上的特征。SimAM的无参性质是一个关键优势。虽然它需要计算通道统计量 (μ^,σ^2)(\hat{\mu},\hat{\sigma}^{2})(μ^,σ^2) 以及应用方程计算成本，但它避免了昂贵的参数化操作。增强的特征为后续检测阶段提供了更优越的输入，特别是在传统方法经常失败的复杂无人机场景中的小目标检测方面尤其受益。

3.2. 多跨尺度特征金字塔网络

有效的多跨尺度特征融合仍然是无人机小目标检测的基本挑战，原因是目标的极端尺度变化和复杂的空间分布。虽然YOLOv8的PANet架构通过其双向连接改进了传统的特征金字塔网络，但其几个关键限制阻碍了最优性能。当前架构采用了简单的反向融合路径复制，导致冗余参数，无法建立有意义的跨尺度交互。此外，其固定的融合策略无法适应分层特征的差异化重要性，而瓶颈结构缺乏足够的容量来保留细粒度细节------这对于空间信息在下采样操作中容易丢失的小目标来说是一个特别严重的缺点。

如图6所示，我们提出的M-FPN通过三项架构创新解决了这些限制。首先，我们在每个网络层级引入了自适应的 3×33\times33×3 卷积，动态调整感受野以捕获尺度特定的特征。其次，该拓扑通过选择性的跨层连接优化了信息流，这些连接优先考虑语义互补的特征组合，而不是简单的路径复制。第三，C2f-HPC模块的集成实现了细粒度的多尺度融合。

图 6. M-FPN的结构。⊕ 表示拼接操作。

C2f-分层-幻影卷积

YOLOv8中的C2f模块是一个关键的特征提取组件。然而，其固定的感受野难以捕捉无人机目标的极端尺度变化，并且瓶颈结构不足以保留细粒度的空间信息，从而降低了检测精度。如图7所示，我们的C2f-HPC模块通过一个分层-幻影卷积 [38] 架构克服了这些限制，该架构实现了渐进式的多尺度特征学习。

图 7. C2f-HPC的构造。

如图8所示，HPC模块采用了一种简单高效的多尺度特征提取策略，并结合了通道注意力学习，显著增强了更细粒度上的多尺度表示能力。对于输入特征向量，分割操作将特征沿着通道维度分成 sss 个均匀的子集 FiF_iFi，然后每个子集在残差层次结构中依次经过 3×33\times33×3 卷积 Ti(⋅)\mathcal{T}_i(\cdot)Ti(⋅) 处理，其中第 iii 个卷积既作用于原始子集，也作用于所有先前精炼的特征。这个过程重复进行，公式如下：

F^i={Ti(Fi),i=1Ti(Fi⊕F^i−1),1<i≤s\hat{F}{i}=\begin{cases}{\mathcal{T}{i}\left(F_{i}\right),}&{i=1}\\ {\mathcal{T}{i}\left(F{i}\oplus\hat{F}_{i-1}\right),}&{1<i\leq s}\end{cases}F^i={Ti(Fi),Ti(Fi⊕F^i−1),i=11<i≤s

其中 ⊕ 表示求和操作，最后通过拼接连接获得整个增强的多尺度特征图，如下所示：

F^=Concat⁡([F^1,F^2,⋯ ,F^s])\hat{F}=\operatorname{C o n c a t}\left(\left[\hat{F}{1},\hat{F}{2},\cdots,\hat{F}_{s}\right]\right)F^=Concat([F^1,F^2,⋯,F^s])

该模块中的每组卷积算子都可以从特征向量的一个子集中提取特征信息，并且随着每次卷积运算，输出结果将具有更大的感受野，随后与下一层的输入融合，经过连续迭代的多尺度融合后，由于组合爆炸效应，HPC模块的输出感受野包含了丰富的细粒度信息，可以捕捉到场景中更多小目标的特征细节。

图 8. HPC的构造。图中， $H$ 、 $W$ 和 $C$ 分别表示输入特征图的高度、宽度和通道数。 $\\omega$ 表示分割后的通道宽度， $s$ 是分割总数。 $F$ 和 $\\hat{F}$ 表示输入和输出特征。

3.3. 自适应空间特征融合检测头

单阶段检测器在处理尺度变化方面存在不足，这是由于不同特征层级之间分辨率与语义信息的根本权衡。浅层特征图保留了小目标检测所必需的精细空间细节，但缺乏语义丰富性；而深层特征则提供了强大的语义表示，但以丢失关键的空间信息为代价。这种不一致导致小目标特征在深层被稀释或被当作背景处理，在多尺度特征融合过程中产生冲突信息，以及在训练期间产生次优的梯度传播。如图9所示，我们设计了ASFFDHead，通过一个集成的架构来解决这些问题，该架构具有一个专用的P2检测头和一个自适应空间特征融合机制。

图 9. ASFFDHead的结构。

扩展的检测尺度引入了一个专门为小目标设计的高分辨率P2头，同时保持了原始的P3-P5头以实现全面的尺度覆盖。每个检测头遵循相同的结构，确保跨尺度处理的一致性。ASFF解决的核心挑战是在检测头中进行多尺度特征融合时产生的不一致性或冲突。来自不同金字塔层级的特征具有不同的分辨率和语义强度。浅层特征在空间细节上表现出色但缺乏语义丰富性，而深层特征在语义上很强但在空间上粗糙。因此，当仅进行简单融合时，一个层级中的特征可能与同一空间位置上另一层级中的特征相矛盾------特别是当该位置对应于主要在特定尺度上可检测的小目标时。例如，指示小目标的浅层特征图中的高激活像素在调整大小后可能与同一位置上更深层特征图中的低激活像素在空间上重合。这种冲突在训练和推理过程中会混淆检测器。ASFF机制通过自适应地学习空间权重图来解决这个问题，这些权重图在融合过程中动态过滤掉冲突信息，并强调每个层级中一致的、具有判别性的线索。至关重要的是，这些权重是通过标准的反向传播直接从数据中学习的，允许网络发现抑制不一致性的最优融合策略。

如图10所示，我们展示了ASFF机制的操作原理。来自所有源层级 n∈(P2, P3, P4, P5)n\in\left(P2,\:P3,\:P4,\:P5\right)n∈(P2,P3,P4,P5) 的特征首先被调整大小（通过插值进行上采样，或通过跨步卷积或池化进行下采样）以匹配目标层级 lll 的空间维度。同时，应用 1×11\times11×1 卷积以确保所有调整大小后的特征具有相同数量的通道。随后，ASFF开始自适应融合，整体融合过程公式如下：

yijl=αijl⋅xijn→l+βijl⋅xijn→l+γijl⋅xijn→l+δijl⋅xijn→ly_{i j}^{l}=\alpha_{i j}^{l}\cdot x_{i j}^{n\rightarrow l}+\beta_{i j}^{l}\cdot x_{i j}^{n\rightarrow l}+\gamma_{i j}^{l}\cdot x_{i j}^{n\rightarrow l}+\delta_{i j}^{l}\cdot x_{i j}^{n\rightarrow l}yijl=αijl⋅xijn→l+βijl⋅xijn→l+γijl⋅xijn→l+δijl⋅xijn→l

图 10. ASFF4的细节。⊗ 表示点积，⊕ 表示融合。

这里，xijn→lx_{i j}^{n\rightarrow l}xijn→l 表示在第 jjj 层上调整到第 lll 层大小的位置 (i,j)(i,j)(i,j) 处的特征向量。yijly_{i j}^{l}yijl 表示输出特征图 yly^{l}yl 在 (i,j)(i,j)(i,j) 处的通道间向量。αijl,βijl,γijl\alpha_{i j}^{l},\beta_{i j}^{l},\gamma_{i j}^{l}αijl,βijl,γijl 和 δijl\delta_{i j}^{l}δijl 是网络在四个不同层级自适应学习的特征向量的空间权重；值得注意的是，它们不是预定义或启发式的，而是从特征图本身衍生的可学习参数。我们使用Softmax函数定义它们如下：

αijl=eλαijleλαijl+eλβijl+eλγijl+eλδijl,\alpha_{i j}^{l}=\frac{e^{\lambda_{\alpha_{i j}}^{l}}}{e^{\lambda_{\alpha_{i j}}^{l}}+e^{\lambda_{\beta_{i j}}^{l}}+e^{\lambda_{\gamma_{i j}}^{l}}+e^{\lambda_{\delta_{i j}}^{l}}},αijl=eλαijl+eλβijl+eλγijl+eλδijleλαijl,

这里，λαijl,λβijl,λγijl\lambda_{\alpha_{i j}}^{l},\lambda_{\beta_{i j}}^{l},\lambda_{\gamma_{i j}}^{l}λαijl,λβijl,λγijl 和 λδijl\lambda_{\delta i j}^{l}λδijl 是控制参数。对于每个源层级，一个专用的 1×11\times11×1 卷积层应用于其对应的对齐特征图 xn→lx^{n\rightarrow l}xn→l。这个 1×11\times11×1 卷积输出一个单通道的空间控制参数 λijl\lambda_{i j}{}^{l}λijl 图，用于将特征图融合到每个层级中。softmax 的目的是根据特征图 xn→lx^{n\rightarrow l}xn→l 在每个空间位置 (i,j)(i,j)(i,j) 的 λijl{\lambda_{i j}}^{l}λijl 生成候选的权重信号。softmax 操作确保了两个关键属性：权重 αijl,βijl,γijl\alpha_{i j}^{l},\beta_{i j}^{l},\gamma_{i j}^{l}αijl,βijl,γijl 和 δijl\delta_{i j}^{l}δijl 被归一化在0和1之间。同时，指定 αijl+βijl+γijl+δijl=1\alpha_{i j}^{l}+\beta_{i j}^{l}+\gamma_{i j}^{l}+\delta_{i j}^{l}=1αijl+βijl+γijl+δijl=1。这种归一化迫使网络在每个位置上竞争影响力。λ\lambdaλ 通过控制权重参数趋近于0或1来过滤掉融合过程中的冲突信息。

通过为每个尺度自适应地融合所有层级的特征，无关的特征被过滤掉，而相关的特征通过提供更具判别性的线索而占主导地位。这一修改显著提高了模型的小目标检测能力。

4. 结果

4.1. 实验基本配置

我们在Windows环境下进行了所有实验。YOLOv8版本为Ultralytics 8.1.20。硬件方面，CPU使用第13代英特尔酷睿 i9-13900K 3.00 GHz，GPU使用英伟达GeForce RTX 3090，软件框架包括Python3.8、torch1.10.0和cuda11.6。在训练过程中，我们从预训练模型开始，并使用GPU进行训练。输入图像尺寸为 640×640640\times640640×640。经过多次调整和尝试，我们将训练轮数设为200，早停轮数设为150以防止资源浪费。随后，我们将批大小设为8，以最大程度地加速训练时间；使用SGD作为优化器并控制动量设为0.937；使用马赛克进行数据增强。更多实验超参数见表1。
表 1. 模型超参数。

4.2. 数据集

我们使用专为无人机目标检测定制的VisDrone2019数据集，该数据集由天津大学机器学习和数据挖掘实验室的AISKYEYE团队收集和制作，具有权威性。与单视角收集不同，该数据集汇集了来自不同角度和任务背景的图像，包括城市街道、建筑物和植物，如图11所示，其中包含更多小目标图像。该数据集中有10个类别，如图12所示，训练集有6471张图像，验证集有548张图像，测试集有1610张图像，并且训练集根据相应标签的数量分配了类别权重。如果我们按照COCO [39] 标准对目标尺寸进行分类，VisDrone2019数据集中小目标的比例超过60%，这非常适合作为我们的基准数据集。

图 12. (a) 十个目标类别的分布。 (b) 目标高度和宽度的分布。

4.3. 评估指标

我们使用一组指标来评估增强模型的性能，包括精确率、召回率、mAP@0.5:0.95、mAP@0.5和 F1F_{1}F1 分数，以便直观地比较其有效性。

精确率表示所有预测为正例的样本中真正例的比例，而召回率通过计算真正例与所有实际物体的比值来衡量找到所有相关实例的能力。F1F_{1}F1 分数将两者结合作为调和平均数，以提供平衡的评估。数学公式如下：

R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP
P=TPTP+FPP={\frac{T P}{T P+F P}}P=TP+FPTP
F1=2⋅P⋅RP+RF_{1}=2\cdot{\frac{P\cdot R}{P+R}}F1=2⋅P+RP⋅R

这里，真正例表示模型正确标记正例样本的情况，假负例指正例样本被错误分类为负例的情况，假正例表示模型错误地预测负例样本为正例的情况。

平均精确率通过对所有类别的精确率进行平均，为模型性能评估提供了一个统一的指标。数学公式为：

mAP=1K∑i=1KAPim A P=\frac{1}{K}\sum_{i=1}^{K}A P_{i}mAP=K1i=1∑KAPi

这里，KKK 指的是不同的类别，而平均精确率用于单独评估每个类别的检测精度，APi→=∫01P(Ri)dR\begin{array}{r}{\overrightarrow{A P_{i}}=\int_{0}^{1}P\left(R_{i}\right)d R}\end{array}APi =∫01P(Ri)dR

4.4. 对比实验

SMA-YOLO的性能评估涉及在VisDrone2019数据集上的三组对比实验。与基线YOLOv8n的直接比较突出了所提出模型的性能提升。与其他广泛使用的YOLO变体的进一步验证确认了架构改进的有效性。与近期基于YOLOv8n的先进模型的额外基准测试进一步确立了SMA-YOLO的优越性。

YOLOv8有五种不同的尺寸：YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l、YOLOv8x。我们平衡了模型检测的精度和速度，并结合我们的软硬件环境，最终选择了YOLOv8n作为我们的基线模型。

表2显示了YOLOv8n和我们的模型在每个类别上的平均精确率值，以及所有类别的mAP@0.5值。如表数据所示，我们模型的mAP@0.5值在所有类别上提升了7.4%，每个类别的平均精确率值都有所提高，其中提升幅度最大的三个类别是行人、摩托车和人群，分别提升了12.7%、10.0%和9.7%。这三个类别都属于小目标类别，其检测精度的提升证实了SMA-YOLO在解决基于无人机图像的小目标检测挑战方面的有效性是专门针对该领域的。
表 2. SMA-YOLO与YOLOv8n的对比结果。（加粗表示提升比率）。

表3显示了SMA-YOLO与其他YOLO模型的对比分析。YOLOv5和YOLOv7在VisDrone2019数据集上表现不如基线YOLOv8n。YOLO-NAS采用神经架构搜索来自动优化骨干网络和头部架构，在精度和效率之间实现了更好的平衡，从而获得增强的性能。类似地，YOLOv10s和YOLOv11s通过优化的架构和先进技术相对于YOLOv8n实现了显著改进。随后，YOLOv12在YOLOv11的基础上引入了以注意力为中心的架构，包含区域注意力和残差高效层聚合网络，这降低了复杂性并优化了特征聚合，在不牺牲实时速度的情况下实现了卓越的准确性。值得注意的是，即使是YOLO系列中的最新模型YOLOv13s------也提出了基于超图的自适应相关增强用于通过超图计算进行自适应高阶相关性建模，全流水线聚合与分布用于全流水线特征分发，以及深度可分离卷积以减少计算开销。尽管它在mAP@0.5上达到了39.1%，但仍远低于SMA-YOLO的42.3%，进一步验证了其优越的检测性能。
表 3. SMA-YOLO与其他YOLO模型的对比结果。（加粗表示最佳结果）。
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/e690ac70122e4189ad17ac2a94d898d1.png)

在SMA-YOLO与其他先进模型之间进行了对比分析，以验证其优越的有效性。如表4所示。SSD在比较方法中表现出相对较差的检测性能。NanoDet是一种基于无锚框设计和高效骨干网络的轻量、快速且易于部署的检测器。它表现出极其轻量化的特性，因此在复杂场景和小目标检测中性能较低。Faster RCNN作为一种代表性的两阶段检测器，相对于SSD仅显示出微弱的改进，与基线YOLOv8n模型相比性能仍然明显不佳。性能基准YOLOv8n以及表中列出的所有比较模型都是专门为基于无人机的小目标检测优化的增强架构。值得注意的是，每个修改后的模型都相对于YOLOv8n实现了不同程度的性能提升。在所有比较算法中，YOLO-MARS表现出最佳的整体性能。然而，SMA-YOLO在mAP@0.5上比YOLO-MARS高出1.4%，在mAP@0.5:0.95上高出1.9%，同时参数减少了0.3M。这些结果表明，尽管SMA-YOLO在参数和GFLOPs方面没有取得最佳结果，但综合评估显示SMA-YOLO实现了出色的检测性能，特别是在无人机图像的小目标检测场景中，证实了其在该专业领域的有效性和优势。
表 4. SMA-YOLO与其他改进的YOLOv8模型的对比结果。（加粗表示最佳结果）。

4.5. 消融实验

进行了两组消融实验，以检验每项单独改进对模型性能的影响。第一阶段通过消融研究评估了SSC模块的独立影响，而第二阶段则系统地检验了所有提出改进的集体贡献。测试比较在相同的实验设置下，在VisDrone2019数据集上以YOLOv8n作为基准模型进行。

对于SSC模块中特征图的增强，我们使用了计算3D注意力权重的SimAM来增强特征，为了验证其优越性，我们在相同的设置和条件下，使用专注于计算一维权重的SE [53] 注意力机制，以及计算一维和二维权重的CBAM [54] 进行了实验。

消融结果如表5所示；关于各种注意力机制的有效性可以得出几个关键观察。SimAM导致的GFLOPs增加微乎其微，主要是由于计算通道统计量（均值和方差2）以及其闭式解所定义的逐元素操作。相比之下，SE和CBAM表现出显著更高的计算成本，这源于它们的参数化层。最重要的是，SimAM的无参性质在推理过程中实现了更高效的特征传播，其较低的计算复杂性使得推理速度略高于基线。然而，SE和CBAM由于其增加的参数和更复杂的操作，推理速度显著下降。尽管SimAM的mAP@0.5增益仅略高于SE和CBAM，但这一改进是在参数增长可忽略不计且对推理延迟影响最小的情况下实现的。这种卓越的效率使得SimAM特别适合资源受限的无人机平台，在这些平台上实时性能至关重要。mAP增益的微小差异可能归因于SimAM的3D注意力机制本质上更擅长保留对小目标至关重要的细粒度细节。
表 5. 在SSC中引入不同注意力机制的结果。（加粗表示最佳性能）。

我们采用Grad-CAM技术生成热力图，便于在相同场景下直观比较三种不同注意力机制的检测结果。如图13所示，选择了一个包含大量车辆和显著背景干扰的代表性场景。激活图中的红色区域表示高响应区域。总体而言，SimAM的检测性能明显优于其他两种机制。虽然SE模块的集成使模型能够定位目标，但高激活区域主要集中在物体边界周围。引入CBAM后，红色区域的分布更广；然而，这些激活在很大程度上仍停留在目标的边缘附近。此外，SE和CBAM对于受背景杂波影响的车辆都显示出较弱的激活响应。相比之下，SimAM的引入导致激活区域的数量和强度显著增加，这些区域主要集中在物体的中心区域，表明识别更准确。此外，SimAM更有效地强调了被树木部分遮挡或距离相机较远的车辆。这些结果证明了SimAM在增强物体检测性能方面相对于SE和CBAM的卓越能力。

图 13. 在SSC中引入不同注意力的热力图结果。(a) +SE。(b) +CBAM。(c) +SimAM。

表6中列出的结果证实了与原始YOLOv8n相比，完全优化的模型在所有检测精度指标上都有显著改进。具体来说，精确率提升7.2%，召回率提升6.6%，mAP@0.5提升7.4%，同时参数量减少0.4 M。架构修改的详细分析表明，引入M-FPN和ASFFDHead后，模型检测精度大幅提高。M-FPN用一个更精简高效的结构取代了原始的PANet式特征融合，专注于尺度对齐的融合，同时避免了冗余卷积，从而在不影响特征质量的情况下节省了参数。随后，ASFFDHead的基于注意力的自适应空间融合机制帮助模型过滤冲突信息，同时强调判别性信息，从而实现更准确的预测。但同时，其多分支结构（其中来自不同尺度的每个输入特征都由独立的卷积层处理）也引入了更多参数。值得注意的是，GFLOPs的增加主要源于M-FPN和ASFFDHead组件。M-FPN引入了额外的多尺度特征融合路径，这显著增加了特征图上的计算量。同时，ASFFDHead用更复杂的基于融合的结构取代了YOLOv8检测头，引入了更多的层和特征间的计算。这些变化虽然提高了小目标感知能力，但不可避免地导致了更高的GFLOPs和降低的FPS。SSC的引入略微减缓了FPS的下降。尽管如此，FPS仍保持在100以上，在保持可接受的实时性能的同时，我们在检测精度方面取得了显著改进。

为了进一步验证这些发现，如图14所示，我们通过精确率-召回率曲线、F1-置信度曲线和召回率-置信度曲线进行了全面的性能分析。这些结果共同证实了我们提出的模型架构既稳健又有效。
表 6. 改进模型中关键组件的消融研究。ASFFDH表示ASFFDHead。（加粗表示最佳性能）。

图 14. (a) 精确率-召回率曲线。 (b) F1-置信度曲线。 (c) 精确率-置信度曲线。

4.6. 可视化分析

我们展示了SMA-YOLO与基线YOLOv8n之间的直观视觉比较，以证明其在无人机小目标检测方面的增强有效性，并将其检测结果与基线模型YOLOv8n的检测结果进行了可视化。从VisDrone2019数据集中选择了两张代表性图像，每张图像具有不同的场景、相机视角和光照条件。检测结果有明显差异的区域用白色矩形框突出显示并放大以便更清晰地观察。可视化图像包括物体类别名称和置信度分数，不同颜色表示不同类别。图15和图16显示了在两种明显不同条件下的可视化结果。

图 15. 白天以倾斜角度获取的城市街道航拍图像。(a) YOLOv8n。(b) SMA-YOLO。

图15描绘了一张在白天以倾斜角度拍摄的城市街道无人机图像，背景复杂。两个模型都检测到了大多数物体。然而，YOLOv8n在识别小而远的物体方面表现出明显的局限性。图像中至少有四个区域显示出显著差异，其中两个代表性区域用白色矩形框强调。在上部区域，车辆密集排列，SMA-YOLO几乎准确地检测到了所有车辆，包括被其他物体部分遮挡的一辆巴士。此外，左上角被路灯和楼梯部分遮挡的汽车，SMA-YOLO仍然能够正确识别。这些结果直接展示了SMA-YOLO对于被遮挡或密集小目标的检测结果，突显了其卓越的检测敏感性和准确性。

图 16. 夜间光线不佳且模糊的城市交叉路口航拍图像。(a) YOLOv8n。(b) SMA-YOLO。

相比之下，图16展示了一张夜间无人机图像，能见度差、存在运动模糊且光照条件极差，这对物体检测构成了重大挑战。虽然两个模型在图像的下半部分表现相似，但上半部分区域显示出明显差异。尽管有几个明显的差异，但我们关注两个代表性区域。在中上部，有一组开着前灯的汽车位于远处。尽管存在距离、眩光和模糊等不利因素，SMA-YOLO成功地检测到了大部分车辆，而YOLOv8n未能识别出其中大部分。在右上区域，缺乏照明，YOLOv8n仅检测到两辆车，而SMA-YOLO正确地识别了所有车辆。这些结果证明了SMA-YOLO在低光照、能见度差和图像退化等挑战性条件下的鲁棒性。

为了进一步验证SMA-YOLO的有效性，从两个场景中各选了一张类似的图像进行补充比较，如图17所示。在这些情况下，我们关注整体检测结果，而不是分析特定区域。性能差距显著的区域用红色椭圆标记以突出差异。

我们在图18中展示了YOLOv8和我们提出的SMA-YOLO的精确率-置信度曲线。如图所示，SMA-YOLO在广泛的置信度阈值范围内表现出更高的精确率。代表所有类别平均值的蓝色曲线在SMA-YOLO中始终更高且更平滑，表明置信度校准更可靠，假正例更少。此外，SMA-YOLO在稍高的置信度阈值下达到了100%的精确率，意味着在高置信度水平下区分正确检测结果的能力更强。几个小目标类别，如行人、人群和自行车，也显示出显著的性能改进。相比之下，YOLOv8在遮阳三轮车和三轮车等类别中表现出不稳定行为，在这些类别中，精确率在较高的置信度水平下急剧下降。这些结果证实了SMA-YOLO不仅提高了检测精度，而且还提供了更可信的置信度估计。然而，在极端置信度范围内的边际改进表明，在极高阈值下抑制假正例的能力提升有限。这意味着虽然SMA-YOLO在整体上比YOLOv8更好地校准了置信度，但其处理极端模糊情况或罕见物体类型的能力仍有待进一步完善。

图 17. (a) YOLOv8n。(b) SMA-YOLO。

为了更详细地了解SMA-YOLO相对于基线YOLOv8的性能优势，我们使用两种模型的混淆矩阵进行了对比分析。如图19所示，检查对角线可以发现，YOLOv8难以准确识别大多数类别，特别是汽车和巴士以外的类别。相比之下，SMA-YOLO在所有类别上都表现出明显的改进，其中提升最显著的是行人、人群和摩托车，每个类别的提升都超过了10%。这三个类别主要由小目标组成，突显了SMA-YOLO在小目标检测方面的增强能力。此外，背景类别由于数据集的多样化场景和高背景复杂性而对检测性能产生重大影响。在许多情况下，目标物体很容易被误分类为无关的背景。然而，SMA-YOLO显著降低了与背景类别相关的假正例率，表明其在杂乱和复杂的视觉环境中检测小目标的鲁棒性。

图 18. (a) YOLOv8n的精确率-置信度曲线。(b) SMA-YOLO的精确率-置信度曲线。

图 19. (a) YOLOv8n的混淆矩阵。(b) SMA-YOLO的混淆矩阵。

4.7. 泛化实验

为了证明我们模型的泛化能力，除了VisDrone2019数据集，我们还在两个遥感图像数据集上进行了对比实验：UAVDT [55] 和 RSOD。UAVDT数据集是一个专为无人机捕获的航拍视频中的目标检测和跟踪任务设计的大规模基准。它包含超过80,000帧，标注了在挑战性条件下的车辆，如高海拔、动态背景、天气变化和小目标尺寸。此外，RSOD数据集是一个专注于高分辨率航空影像的遥感图像基准。它包括四个目标类别------飞机、油罐、操场和立交桥------这些图像是从卫星或航空传感器捕获的，通常用于评估对小而密集分布目标的检测性能。

实验设置，包括训练参数和环境，与在VisDrone2019上使用的保持一致。我们将我们提出的SMA-YOLO与NanoDet、Faster R-CNN以及各种YOLO变体进行了比较。如表7所示，SMA-YOLO在mAP@50和mAP@50:95两个指标上都优于所有模型。具体来说，它在UAVDT上的mAP@50比YOLOv8n高出4.3%，在RSOD上高出3.2%。尽管我们的模型在参数量和GFLOPs方面没有达到最低值，主要是由于与NanoDet等极其轻量化的模型进行了比较。尽管如此，计算成本的轻微增加带来了检测精度的显著提高，这证明了我们设计的有效性。

此外，我们在UAVDT和RSOD数据集上进行了基线与改进模型的定性比较，以直观地突显SMA-YOLO的优势。如图20和图21所示，左右分别展示了YOLOv8和SMA-YOLO在UAVDT和RSOD数据集上的可视化结果。在图20中，YOLOv8将路边的太阳能电池板错误分类为汽车，将交叉口顶部的一辆汽车误识别为卡车，并漏掉了右侧的一辆卡车。相比之下，SMA-YOLO准确地检测到了所有这些实例。此外，如图21所示，油罐目标的真实数量是12个，而YOLOv8将右上角的建筑物误检为油罐，而SMA-YOLO没有产生假正例。
表 7. 在UAVDT和RSOD数据集上的实验结果。（加粗表示最佳性能）。

图 20. YOLOv8和SMA-YOLO在UAVDT数据集上的视觉比较。(左) YOLOv8n，(右) SMA-YOLO。

上述在两个数据集上的实验结果和视觉比较表明，SMA-YOLO表现出强大的鲁棒性和泛化能力。它有效地减少了假正例和漏检，并在异构的遥感条件下实现了卓越的检测性能，而不是局限于单个数据集。

图 21. YOLOv8和SMA-YOLO在RSOD数据集上的视觉比较。(左) YOLOv8n，(右) SMA-YOLO。

5. 讨论

所提出的SMA-YOLO框架通过系统地克服现有方法的三个关键限制，在无人机图像中的小目标检测方面取得了显著改进。具体来说，无参的SSC模块通过利用空间切片和SimAM引导的3D注意力重新校准，保留了小目标的判别性特征。如表5的定量结果所证明的，SSC模块超越了传统的参数化注意力机制，如SE和CBAM，在没有引入额外可学习参数的情况下实现了mAP@0.5提升1.4%，同时保持了实时推理速度。此外，图13中的可视化突出了该模块将激活响应集中在物体中心而不是边缘的能力，从而增强了在杂乱复杂航拍场景中的检测性能。

M-FPN架构通过引入多层级连接以及新颖的C2f-HPC模块，增强了跨尺度特征融合。如表6所示，与基线相比，该设计使mAP@0.5提高了3.1%，同时参数量减少了26.7%。分层感受野扩展机制促进了跨尺度的组合特征集成，有效地保留了检测密集分布小目标至关重要的细粒度细节。这一进步有效地解决了传统特征金字塔网络结构的一个根本局限性，即在下采样操作过程中经常遭受显著的信息退化。

ASFFDHead通过采用自适应空间加权解决了多尺度融合中常见的特征冲突。具体来说，它集成了一个专用的高分辨率P2检测头并引入了ASFF融合策略，共同有助于在夜间场景和运动模糊等挑战性条件下显著减少漏检。这种设计对于小目标检测特别有效，因为浅层和深层特征表示之间的不一致常常妨碍准确定位。此外，通过表7中展示的跨数据集评估验证了模型的泛化能力，其中一致的性能提升------在UAVDT上mAP@0.5提升4.3%，在RSOD上提升3.2%------证实了所提出设计的鲁棒性和适应性。

尽管SMA-YOLO显著增强了无人机和遥感图像中的小目标检测性能，但它引入了负面影响，例如计算复杂度增加和推理速度下降，这两者对于在资源受限的空中平台上部署都是关键的考虑因素。未来的研究将专注于减少计算开销并减轻FPS下降，同时不影响检测精度。特别是，模型压缩技术和动态推理机制是可能进一步优化所提出框架效率的有前景的方向。

6. 结论

在本研究中，为了应对无人机场景中小目标，特别是低分辨率和复杂背景下小目标的漏检和误检等关键问题，我们提出了SMA-YOLO，这是一种基于YOLOv8的增强型检测器，结合了多项架构创新以提高小目标检测性能。提出的无参SSC模块通过策略性的空间切片和基于SimAM的特征增强来增强特征表示，有效地保留了小目标的精细细节，同时有力地抑制了无关的背景特征。为了优化多层次和跨尺度特征融合，我们引入了具有跨层连接的M-FPN以实现高效的信息流，并辅以C2f-HPC模块进行分层多尺度特征提取。通过我们新颖的ASFFDHead设计实现了进一步的改进，该设计增加了一个高分辨率的P2检测头，并引入了ASFF机制以在特征聚合过程中动态解决尺度冲突。在VisDrone2019数据集上的综合评估证明了SMA-YOLO的优越性能，相比YOLOv8n实现了mAP@0.5提升7.4%，同时模型参数量减少0.4 M。同时，我们也在UAVDT和RSOD数据集上展示了其泛化能力。未来的研究方向包括探索用于实时边缘部署的模型压缩技术，以及研究动态推理机制，可能通过更轻、更快的模型进一步推进基于无人机的检测能力。