MFDA-YOLO：一种用于无人机小目标检测的多尺度特征融合与动态对齐网络

摘要

https://pmc.ncbi.nlm.nih.gov/articles/PMC12680328/pdf/pone.0337810.pdf

当应用于无人机航拍图像时，YOLOv8等标准检测器面临重大挑战，包括极端尺度变化、微小目标以及复杂背景。它们的通用特征融合架构容易产生误报和漏检小目标。为了解决这些限制，我们提出了一种基于YOLOv8改进的MFDA-YOLO模型。该模型在骨干网络中引入了基于注意力的同尺度特征交互（AIFI）模块，以增强高级特征交互，提高对多尺度目标的适应性，并强化特征表示。在颈部网络中，我们设计了无人机图像检测金字塔（DIDP）网络，该网络集成了空间到深度卷积模块，以高效地将多尺度特征从浅层传播到深层。通过在跨阶段部分网络中引入全核模块进行图像恢复，DIDP可以增强全局上下文感知能力并消除计算负担，以扩展传统的P2检测层。针对检测头中定位和分类任务之间协同不足的问题，我们设计了动态对齐检测头（DADH）。DADH可以通过多尺度特征交互学习和动态特征选择机制实现跨任务表示优化，这显著降低了模型复杂性并保持了检测精度。此外，我们采用了WIOUv3损失函数来动态调整聚焦系数，增强模型区分小目标的能力。大量实验结果表明，MFDA-YOLO在VisDrone2019、HIT-UAV和NWPU VHR10数据集上优于现有的最先进方法，如YOLOv11和YOLOv13。特别是在VisDrone2019数据集上，MFDA-YOLO超越了基线YOLOv8n模型，在mAP0.5上实现了4.4个百分点的提升，在mAP0.5:0.95上实现了2.7个百分点的提升。此外，它减少了17.2%的参数，有效降低了假阴性和假阳性率。

资金：本工作得到了中国辽宁省科学基金（项目编号2023-MS-322）的支持。本研究未收到额外的外部资金。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有发挥作用。

竞争利益：作者声明不存在竞争利益。

1. 引言

随着科学技术的快速发展，无人机（UAV）由于其灵活性、低成本和易于操作，在农业、救灾和运输等领域得到了广泛应用[1]。然而，无人机目标检测常常面临尺度变化、动态视角、复杂背景和密集目标重叠等挑战，这使得传统检测框架效果不佳。因此，开发一种适用于复杂环境中无人机小目标检测的轻量级高精度算法具有重大的研究价值和应用潜力[2]。

随着深度学习技术，特别是卷积神经网络（CNN）的广泛应用，目标检测算法的准确性和效率得到了显著提升，超越了传统方法[3]。基于深度学习的目标检测算法通常分为两类：单阶段算法（例如，You Only Look Once (YOLO)）和两阶段算法（例如，R-CNN系列）[4]。

单阶段目标检测算法通过端到端回归策略直接在原始图像上预测目标位置和类别，这避免了生成候选区域的计算开销。然而，这种对速度的关注在检测航拍图像中的小尺寸、遮挡目标时揭示了其固有局限性。Redmon等人[5]提出的YOLO算法经常无法检测到航拍无人机视角中常见的小尺寸目标。这种失败源于其在特征提取方面的固有局限性和对尺度变化的适应性差。其他方法在密集人口的航拍场景中也表现不佳。例如，Law和Deng[6]提出了基于关键点的CornerNet，Tian等人[7]提出了无锚框的FCOS检测器，但两种方法表现都不佳。严重的遮挡和重叠的中心点破坏了精确定位，而无锚框设计可能导致预测边界框与实际目标尺寸之间的不匹配。Tan等人[8]提出的EfficientDet试图通过更复杂的特征融合网络来增强性能。然而，其高计算成本使得在资源受限的无人机平台上进行实时部署具有挑战性。同样，Zhang等人[9]提出的YOLO-MFD在检测头中引入了多维注意力加权以增强特征聚焦。然而，这种方法带来了显著的计算开销，其动态空间对齐能力对于极小的航拍目标仍然不足。

为了克服单阶段检测器固有的精度限制，研究人员自然地探索了高精度的两阶段算法。然而，这类方法通常计算开销过大，这与无人机终端的实时推理需求相冲突。例如，Cai等人[10]提出的Cascaded R-CNN采用多阶段机制逐步提高IoU阈值，以优化检测框定位精度。然而，正是这种级联过程导致了其巨大的计算成本。在特征表示增强层面，He等人[11]提出的特征金字塔网络（FPN）利用跨层融合来改善多尺度特征表征。然而，无人机图像中的极小目标在通过深度网络传播时会遭受严重的特征衰减。这导致语义信息的丢失，FPN难以有效补偿。此外，即使采用先进的骨干架构，这个问题仍然存在。虽然Liu等人[12]提出的Swin Transformer通过分层滑动窗口注意力机制有效建模全局上下文信息。然而，其固定的窗口分割难以有效识别无人机图像中常见的多尺度、不规则微型目标，存在漏检风险。

总之，开发平衡精度、效率和轻量级设计的无人机检测算法仍然是一个核心挑战。由于无人机具有实时需求，更高效的单阶段检测器是一个更有前景的研究方向[13]。因此，本研究选择YOLOv8[14]算法作为基线，因为它在速度和精度之间具有出色的平衡。尽管有这一优势，它在处理无人机检测中常见的小目标和复杂背景时仍然困难，反映了单阶段检测器的固有局限性。为了解决这个问题，我们提出了MFDA-YOLO，旨在显著增强模型的多尺度特征能力，同时严格控制计算复杂性。本研究的主要贡献如下：

(1) 无人机航拍中对小尺寸、密集目标的检测依赖于精确的空间细节以获得准确性。这些细节正是空间金字塔池化快速（SPPF）模块容易模糊的元素，导致漏检。为了解决这个问题，我们利用基于注意力的同尺度特征交互（AIFI）模块替代骨干网络中的SPPF模块。AIFI模块使用自注意力机制捕获相同尺度特征之间的依赖关系，从而增强网络的聚焦能力。

(2) 复杂的无人机场景导致小目标特征在深层网络中严重衰减。为了解决这个问题，我们提出了无人机图像检测金字塔（DIDP）。该模型使用SPD-Conv对P2层进行无损下采样，将空间结构信息重组到通道维度。此外，我们设计了C-OKM模块来恢复缺失的图像细节，为后续特征融合提供更丰富的特征。

(3) 为了进一步缓解P2检测层引入的参数复杂性问题，我们提出了动态对齐检测头（DADH）。该模块首先使用共享卷积进行特征提取，从而最大限度地控制模型的参数数量。随后，使用任务分解为每个任务提取相应的特征。通过将可变形卷积与动态权重选择机制集成，实现了自适应特征处理，有效缓解了任务之间的冲突。

(4) 鉴于轻量级检测器在面对大量低质量样本时难以收敛的普遍问题，我们用WIOUv3损失函数替换了基线CIOU损失函数。它采用动态系数将模型的注意力引导到难以区分的小目标上。WIOUv3通过自适应归一化有效缓解振荡。

2. 技术背景

本节对YOLOv8的网络架构进行全面分析，并解释其组件模块的功能。在此基础上，它分析了将该模型应用于特定任务时遇到的固有局限性。与以前的YOLO模型相比，YOLOv8对其网络结构进行了细化和优化。如图1所示，其核心架构包括三个模块：骨干网络（Backbone）、颈部网络（Neck）和检测头（Head）。

2.1 骨干网络

骨干网络由卷积层、C2f层和SPPF组成，构成了其特征提取设计的核心。骨干网络通过多个卷积、池化和激活函数层协同工作，从输入图像中提取多层次特征信息。该过程实现了深度特征提取，并逐渐减小特征图的大小，最终为后续检测头提供丰富的语义支持[15]。

C2f层通过多尺度特征融合和自适应大小调整机制提高了特征表达的效率和检测精度。该机制通过交替使用1×11\times11×1和3×33\times33×3卷积生成特征图，并通过梯度分流连接将它们集成，以增强信息流并保持网络轻量级。

SPPF模块替代了早期YOLO版本中使用的空间金字塔池化模块。与空间金字塔池化模块的多尺度池化核不同，SPPF通过对特征图顺序应用小池化核来处理它们[16]。这种级联结构显著提高了计算效率并保持了原始感受野。随后，SPPF模块将原始输入特征与多阶段池化输出沿通道维度连接，生成固定维度的特征向量。这些特征向量直接馈入下游网络进行特征提取。

2.2 颈部网络

颈部网络使用C2f模块结合路径聚合网络和特征金字塔网络。其核心功能是分析和融合骨干网络的特征，从而提高模型检测不同大小目标的能力[17]。此外，颈部网络通过路径聚合网络和C2f模块执行特征图的多尺度融合，将浅层信息高效聚合到深层特征中。

2.3 检测头

YOLOv8实现了分离头设计，其中分类和回归任务通过两个不同的专用分支进行处理。分类分支通过1×11\times11×1卷积层处理特定于类别的特征进行对象识别。回归分支通过专用卷积操作提取空间坐标和尺度进行对象定位。

2.4 局限性分析

尽管YOLOv8在一般检测任务上表现出色，但其标准架构在应用于无人机目标检测的独特挑战时表现出固有局限性。一个主要问题源于骨干网络和颈部网络，其中旨在扩大感受野的连续下采样操作损害了对从远距离定位这些小目标至关重要的高分辨率空间细节。

此外，检测头的固定感受野无法充分处理无人机画面中典型的急剧尺度变化。因此，在用于分类的语义特征和用于回归的精确空间线索之间出现了关键的不匹配，导致在具有挑战性的小目标上（从航拍视角看）性能显著下降。本工作致力于解决这些特定的架构缺陷，以实现稳健的基于无人机的检测。

3. 方法

在本研究中，我们提出了基于YOLOv8的MFDA-YOLO模型用于无人机目标检测。该模型有效解决了无人机场景中的两个重大问题：小目标特征的丢失和边缘设备上的计算约束。MFDA-YOLO的整体网络架构如图2所示，其核心改进渗透到模型的骨干网络、颈部网络和检测头中。在骨干网络中，我们引入了AIFI模块，其全局注意力机制增强了深度特征表示，有效缓解了由连续下采样导致的小目标信息丢失。随后，经过骨干增强的特征被馈入颈部网络，由我们专门为小目标设计的DIDP模块进行处理。该模块高效地恢复和细化特征，确保小目标的微小细节得到保留并有效传递。最终，这些多尺度细化的特征被输入到DADH检测头中。通过学习任务交互特征并采用动态特征选择机制，该模块显著提高了分类和定位精度。此外，整个架构使用WIOUv3损失函数进行优化，指导模型在训练期间关注具有挑战性的复杂目标，从而进一步提高整体性能。

3.1 AIFI模块

无人机的高飞行高度使目标变得微小，而平台的快速运动掩盖了识别所需的良好纹理细节。尽管高效，传统的SPPF模块在这种情况中通常无效。它们为通用特征提取而设计的重复池化操作可能会无意中擦除定义小航拍目标所需的微小但关键的信息。

为了解决这个问题，我们用AIFI模块[18]替代传统的SPPF模块，该模块通过自注意力处理高级语义特征，有效捕获无人机检测中的纹理细节。同时，为了使AIFI模块能够更有效地提取关键信息，我们在输入中添加了1×11\times11×1卷积层以实现通道压缩。这实现了通道压缩，过滤掉冗余信息，并确保模块能够高效地关注无人机检测中最显著的特征。AIFI结构如图3所示。

AIFI模型将输入的2D特征图X∈RH×W×C\pmb{X}\in\mathbb{R}^{H\times W\times C}X∈RH×W×C转换为1D特征序列Xseq∈RN×C\boldsymbol{X}_{seq}\in\mathbb{R}^{N\times C}Xseq∈RN×C。随后，序列通过多头自注意力机制进行处理，以学习位置相关性并生成注意力特征。然后执行残差连接和层归一化以保留原始特征信息[19]。前馈网络进一步引入非线性变换，以学习特征序列之间的复杂相关性。最终，将得到的序列重构为2D特征图，以实现全局上下文信息和局部空间结构的有效融合。AIFI模块过程的数学表示如下：
Q,K,V=Flatten⋅WQ,Flatten⋅WK,Flatten⋅WVQ,K,V=Flatten\cdot\mathsf{W}^{Q},Flatten\cdot\mathsf{W}^{K},Flatten\cdot\mathsf{W}^{V}Q,K,V=Flatten⋅WQ,Flatten⋅WK,Flatten⋅WV
Output=Reshape(MultiHeadAttn(Q,K,V))Output=\mathsf{Reshape}(MultiHeadAttn(Q,K,V))Output=Reshape(MultiHeadAttn(Q,K,V))

其中WQ,WK,WV\mathsf{W}^{Q},\mathsf{W}^{K},\mathsf{W}^{V}WQ,WK,WV是线性变换矩阵。Flatten操作通过降维映射将多维特征张量重构为一维向量。相反，Reshape操作将一维特征序列重构为空间张量，其维度与原始输入向量的结构相匹配。

AIFI模块通过增加高级特征层内部的尺度交互，降低了模型的复杂性并提高了深度特征表示能力。

3.2 无人机图像检测金字塔

虽然AIFI模块增强了骨干特征，但有效地融合它们以进行小目标检测仍然是一个关键挑战。标准特征金字塔（P3-P5）缺乏无人机图像中常见小目标所需的分辨率。

图3. AIFI模块的结构图。

然而，直接纳入高分辨率P2层会产生巨大的计算开销，使得在需要实时响应的资源受限无人机平台上不切实际。

为了解决这些问题，我们设计了DIDP模块用于检测无人机图像中的小目标。在P2检测层上，我们应用SPD-Conv执行特征提取并将其与P3检测层融合。同时，为了避免特征退化，我们提出了C-OKM模块。该模块通过跨阶段部分网络[21]执行通道分离，并集成Omni-Kernel[22]的多尺度感知能力，以实现高效的特征恢复。

3.2.1 SPD-Conv模块。SPD-Conv通过空间重组和卷积操作提取多尺度特征，提高了低分辨率图像中小目标的检测精度。该模块包含两个核心组件：SPD层和非步长卷积（N-S Conv）层。SPD-Conv的工作流程如图4所示。

SPD层将维度为S×S×C1\mathcal{S}\times\mathcal{S}\times\mathcal{C}{1}S×S×C1的输入特征图X分解为多个子特征图fx,yf{x,y}fx,y，如下所示：
{f0,0=X[0:s:scale,0:S:scale],...,fscale−1,0=X[scale−1:S:scale,0:S:scale]f0,1=X[0:S:scale,1:S:scale],...,fscale−1,1=X[scale−1:S:scale,1:S:scale]...⋅f0,scale−1=X[0:S:scale,scale−1:S:scale],...,fscale−1,scale−1=X[scale−1:S:scale,scale−1:S:scale]\left\{\begin{array}{l}f_{\mathrm{0,0}}=\pmb{X}[\mathrm{0:}s:s c a l e,\mathrm{0:}S:s c a l e],\ldots,\\ f_{s c a l e-\mathrm{1,0}}=\pmb{X}[s c a l e-\mathrm{1:}S:s c a l e,\mathrm{0:}S:s c a l e]\\ f_{\mathrm{0,1}}=\pmb{X}[\mathrm{0:}S:s c a l e,\mathrm{1:}S:s c a l e],\ldots,\\ f_{s c a l e-\mathrm{1,1}}=\pmb{X}[s c a l e-\mathrm{1:}S:s c a l e,\mathrm{1:}S:s c a l e]\\ \ldots\\ \cdot\\ f_{\mathrm{0,}s c a l e-\mathrm{1}}=\pmb{X}[\mathrm{0:}S:s c a l e,s c a l e-\mathrm{1:}S:s c a l e],\ldots,\\ f_{s c a l e-\mathrm{1,}s c a l e-\mathrm{1}}=\pmb{X}[s c a l e-\mathrm{1:}S:s c a l e,s c a l e-\mathrm{1:}S:s c a l e]\end{array}\right.⎩ ⎨ ⎧f0,0=X[0:s:scale,0:S:scale],...,fscale−1,0=X[scale−1:S:scale,0:S:scale]f0,1=X[0:S:scale,1:S:scale],...,fscale−1,1=X[scale−1:S:scale,1:S:scale]...⋅f0,scale−1=X[0:S:scale,scale−1:S:scale],...,fscale−1,scale−1=X[scale−1:S:scale,scale−1:S:scale]

其中scale是下采样因子。每个子特征图fx,yf_{x,y}fx,y由满足i+xi+xi+x和i+yi+yi+y可被scale整除的原始特征图元素X(i,j)X(i,j)X(i,j)组成。子特征图fx,yf_{x,y}fx,y的空间维度为Sscale×Sscale×C1\frac{S}{scale}\times\frac{S}{scale}\times C_1scaleS×scaleS×C1

图4. 当 $\\mathtt{scale=2}$ 时SPD-Conv的具体过程
https://doi.org/10.1371/journal.pone.0337810.g004 如图4(a)所示，当 $scale=2$ 时，原始特征图X被划分为四个子特征图 $f_{0,0},f_{1,0},f_{0,1},$ 和 $f_{1,1},$ 每个维度为 $\\begin{array}{r}{\\frac{\\mathcal{S}}{2}\\times\\frac{\\mathcal{S}}{2}\\times\\pmb{C}_{1}.}\\end{array}$ 。随后，通过沿通道连接这些子特征图生成新特征图X'，大小为 $\\begin{array}{r}{\\frac{S}{scale}\\times\\frac{S}{scale}\\times scale\^{2}C_{1}}\\end{array}$ ，如图4(b)所示。接下来，生成的特征图X'被输入到具有 $C_{2}$ 个滤波器的N-S Conv中。N-S Conv之后，输出特征图 $X\^{\\prime}$ 的大小为 $\\frac{S}{scale}\\times\\frac{S}{scale}\\times C_2$ ，如图4(c)所示。该卷积层最大限度地保留了输入特征图中的判别信息，避免了标准层次卷积可能导致的小目标特征丢失。 3.2.2 C-OKM模块。然而，在特征提取和融合之后，由于运动模糊和抖动，特征仍然容易退化。为了解决这个问题，我们设计了C-OKM模块来执行图像恢复。如图5所示，C-OKM模块采用多分支架构，可以在很大程度上恢复小目标特征并保持计算效率。如图5(a)所示，跨阶段部分结构将输入特征图分为四个通道切片。其中一个切片由Omni-Kernel模块增强并与其它切片融合，以保留通道维度的原始特征。Omni-Kernel模块如图5(b)所示。输入特征首先由 $1\\times1$ 卷积层变换，然后分为三个分支，分别捕获局部、大规模和全局特征。每个分支的输出通过加法融合，并由另一个 $1\\times1$ 卷积层进一步细化。在局部分支中，我们使用 $1\\times1$ 深度可分离卷积（D-Conv）来增强局部图像特征。在大分支中，我们采用低复杂度的较大奇数尺寸 $\\mathsf{K}\\times\\mathsf{K}$ ：D-Conv来捕获大规模特征并扩展感受野。同时，为了高效捕获上下文信息并管理计算开销，我们在瓶颈位置并行使用 $1\\times31$ 和 $31\\times1$ 卷积。在全局分支中，网络主要在裁剪的图像片段上训练。在推理过程中，输入图像的尺寸显著大于训练中使用的尺寸。这种尺寸差异使得卷积核无法覆盖整个全局域。因此，我们引入了双域处理技术来增强全局建模。具体来说，全局分支集成了两个关键模块：双域通道注意力模块（DCAM）（图5(c)）和基于频率的空间注意力模块（FSAM）（图5(d)）。 DCAM模块首先使用傅里叶变换将特征转换到频率域。然后使用通过空间域中全局平均池化生成的通道权重对频率域特征进行重新加权。之后，

图5. C-OKM模块的细节。(a): C-OKM. (b): Omni-Kernel模块. (c): DCAM. (d): FSAM.

在空间域中执行二次通道优化。FSAM模块通过双路径在频率域中提取全局上下文，并生成空间域重要性掩码。这些掩码在频率域中融合并在逆变换后返回到空间域。

3.3 动态对齐检测头

无人机的动态观察视角加剧了检测模型中分类和定位任务之间固有的冲突。目标外观的急剧变化放大了一个核心冲突：特征不能同时足够通用以进行分类，又足够精确以进行定位，这会降低定位精度。

为了解决这个问题，我们通过结合TOOD的[23]交互式标签分配机制与任务一致性优化，提出了DADH模块。与依赖注意力加权的动态头（例如，DyHead[9]）不同，DADH将可变形卷积网络v2（DCNv2）[24]与任务分解相结合，动态优化定位的特征采样。DADH模块的具体细节如图6所示。首先，通过共享卷积层高效提取多尺度特征；随后，这些特征被馈入任务分解模块，解耦为用于定位和分类的两个并行分支。在定位分支中，我们集成了DCNv2，以动态优化特征采样区域，从而适应无人机空中图像中目标的复杂几何变形。同时，分类分支通过动态加权共享特征生成更具判别性的任务特定表示。最终，动态对齐过程增强了两个并行分支之间的特征一致性，使每个分支能够生成更精确的分类和定位预测。

3.3.1 共享卷积层。为了减少模型参数数量并高效集成多尺度特征，我们设计了共享卷积层。输入特征图经过共享卷积进行初始特征提取，然后通过组归一化[25]将通道分为组进行组内标准化。之后，处理后的特征图再次执行卷积和组归一化操作，以进一步细化和提取更深层次的特征信息。最后，将细化的特征与原始输入沿通道维度连接，以集成层次特征并增强表示能力。输出特征图Y通过在输入X的局部区域上滑动共享卷积核K来计算，可以表示为：
Yi,j=(K×X)i,j\mathsf{Y}{i,j}=\left(\pmb{K}\times\pmb{X}\right){i,j}Yi,j=(K×X)i,j

其中(i,j)(i,j)(i,j)是输出特征图Y上的位置。最终增强的特征图Y将作为统一输入，馈入后续的动态选择和任务分解模块。

图6. DADH的结构。

3.3.2 任务分解。在单分支网络中，分类和定位任务不同的特征需求可能导致它们共享同一组特征时发生特征冲突。为了解决这个问题，我们引入了任务分解，其核心在于引入层注意力机制。这动态地解耦共享任务交互特征，从而生成任务特定的特征表示。任务分解的原理如图7所示。

任务分解采用层注意力机制为分类和定位计算单独的任务特定特征，从而减轻特征冲突，如下所示：
Xtask=wkXinterk,k=1...NX_{task}=w_k X^k_{inter},k=1\ldots N Xtask=wkXinterk,k=1...N

其中wkw_{k}wk表示学习层注意力权重的第k个元素。XinterkX_{inter}^{k}Xinterk是第k个跨层特征。XtaskkX_{task}^{k}Xtaskk是第k个任务相关特征。ω是计算出的权重：
ω=σ(fc2(δ(fc1(xinter))))\omega=\sigma\left(\mathbf{\mathit{fc}}{2}\left(\delta\left(\mathbf{\mathit{fc}}{1}\left(\mathbf{\mathit{x}}_{\mathit{inter}}\right)\right)\right)\right)ω=σ(fc2(δ(fc1(xinter))))

其中fC1f_{C_{1}}fC1和fC2f_{C_{2}}fC2表示两个全连接层，σ表示sigmoid函数，δ表示非线性因子，XinterX_{inter}Xinter表示通过对XinterX_{inter}Xinter进行平均池化获得的级联特征。

分类和定位结果基于1Xtask{}{1}X{task}1Xtask分别预测：
Ztask=conv2(δ(conv1(Xtask)))Z_{task}=conv_{2}\left(\delta\left(conv_{1}\left(X_{task}\right)\right)\right)Ztask=conv2(δ(conv1(Xtask)))

其中XtaskX_{task}Xtask表示通过XtaskkX_{task}^{k}Xtaskk连接获得的任务相关特征。Conv1Conv_{1}Conv1是设计用于降低维度的1×11\times11×1卷积层，而Conv₂用于进一步的特征变换。

3.3.3 动态选择和任务对齐。虽然任务分解成功为不同任务提供了不同的特征，但这些特征在其处理方法上仍然是静态的。在无人机飞行期间的动态场景中，当目标姿态和尺度发生突然变化时，固定的感受野难以准确捕获快速变形或移动的目标。为了解决这些问题，我们在任务分解后在定位分支中引入DCNv2，以动态调整交互特征。DCNv2利用从特征提取器学习到的交互特征生成偏移量和掩码，从而实现高效的动态特征选择，可以表示为：
H×W×CH\times W\times C H×W×C
Fc\mathrm{Fc}Fc
xinterx^{inter}xinter
X1∼NinterX_{1\sim N}^{inter}X1∼Ninter
X1∼NtaskıX_{1\sim N}^{task} ıX1∼Ntaskı
图7. 任务分解的原理。
https://doi.org/10.1371/journal.pone.0337810.g007 $$\boldsymbol{y}\left(\boldsymbol{p}\right)=\sum_{k=1}^{K}\boldsymbol{w}{k}\cdot\boldsymbol{x}\left(\boldsymbol{p}+\boldsymbol{p}{k}+\Delta\boldsymbol{p}{k}\right)\cdot\Delta\boldsymbol{m}{k}$$ 其中x和y分别表示输入和输出特征图，p表示特征图上的位置，k表示卷积核大小， $w_{k}$ 是卷积核的权重， $p_{k}$ 表示第k个位置预定义的偏移量， $\\Delta p_{k}$ 是用于调整采样位置的偏移量，而 $\\Delta m_{k}$ 是用于动态调整特征权重的掩码。在分类分支中，从共享卷积层学习到的交互特征被动态选择并与分解的任务特定特征集成。首先， $1\\times1$ 卷积将高级特征的通道维度减少到原始大小的四分之一。压缩后的特征然后由ReLU激活，并由 $3\\times3$ 卷积处理以集成空间上下文。最后，Sigmoid函数将输出归一化，生成(0,1)范围内的像素级类别注意力掩码。在特征融合阶段，该掩码与主分支特征之间执行元素级乘法，以实现动态加权。 DADH通过动态计算不同任务的特定特征实现任务分解，使特征提取过程能够根据每个特定任务的需求进行调整。它减少了任务特征之间的干扰并提高了执行效率。 ### 3.4 WIOUv3损失无人机图像中急剧的尺度变化和密集重叠的目标对边界框回归提出了重大挑战。YOLOv8的默认CIOU损失函数特别容易受到这些问题的影响，在拥挤场景中倾向于收敛到局部最优，导致次优的定位精度。为了解决这些限制，我们引入了WIOUv3[26]，这是一种使用动态非单调聚焦策略的损失函数。该设计通过关注样本质量并缓解通常分配给低质量样本的过度梯度，增强了模型的适应性。 WIOUv3损失函数通过异常度评估候选锚框的质量。较低的异常度对应于较高质量的锚框，而较高的异常度反映较低质量[27]。异常度 $\\beta$ 的定义如下： $$\beta=\frac{L_{IoU}^{*}}{\overline{{L_{IoU}}}}$$ 其中 $L_{IoU}\^{\*}$ 表示当前IoU损失值。归一化因子 $\\overline{{L_{IoU}}}$ 是 $L_{IoU}$ 的指数移动平均值。这种异常度度量机制实现了一种智能梯度分配策略。具体来说，它为具有中等 $\\beta$ 值的锚框分配更高的梯度增益，因为这些样本对模型优化具有最大价值。相反，该机制抑制来自匹配良好（高质量）和难以纠正（低质量）锚框的梯度。这种策略旨在消除拥挤场景中目标重叠或遮挡引起的误导梯度，这是定位不准确的关键因素[28]。通过将学习努力集中在信息丰富且可学习的样本上，模型避免过度优化易样本或难以处理的异常值。非单调聚焦因子r定义如下： $$\pmb{r}=\frac{\beta}{\delta\alpha^{\beta-\delta}}$$ 其中α和δ表示超参数。α用于调整对应于不同大小目标的梯度增益幅度。而δ控制梯度响应函数的曲率，以将优化焦点集中在目标IoU区间内。 WIOUv3利用基于距离度量的几何惩罚和非单调聚焦因子r，定义如下： $$R_{WIoU}=\exp\left(\frac{\left(x-x_{gt}\right)^{2}+\left(y-y_{gt}\right)^{2}}{\left(W_{g}^{2}+H_{g}^{2}\right)^{*}}\right)$$ $$L_{WIoU}^{v3}=r R_{WIoU}L_{IoU}$$ 其中 $(x,y)$ 和 $(\\pmb{x}_{gt},\\pmb{y}_{gt})$ 分别表示预测和真实边界框中心坐标。 $W_{g}$ 和 $H_{g}$ 是最小边界框宽度和高度。星号(*)表示梯度上的分离操作。 $R_{WIoU}$ 是注意力因子，测量预测边界框和真实边界框之间的距离。通过利用IoU的动态特性和锚框的优化标准，WIOUv3在训练期间动态分配梯度，从而提高无人机目标检测性能。 # 4. 实验 ## 4.1 实验配置实验平台配备了Intel Core i9-13900K处理器、32 GB RAM和NVIDIA GeForce RTX 4090，提供强大的计算支持。所有输入图像标准化为 $640\\times640$ ，批量大小为32，训练500个周期。优化器采用随机梯度下降，初始学习率为0.01，动量为0.937，权重衰减为0.0005。此外，IoU阈值设置为0.7，而WIOUv3损失函数的超参数α和δ分别配置为1.7和2.7。软件环境为Python 3.10.14和带有CUDA 12.1的PyTorch。这些实验条件为后续对比实验奠定了坚实基础。 ## 4.2 数据集为了全面评估所提出的无人机目标检测模型的性能，我们在三个数据集上进行实验验证：Visdrone2019、HIT-UAV和NWPU VHR-10。 Visdrone2019[29]数据集广泛用于无人机目标检测研究。Visdrone2019包含8,599张图像，涵盖广泛的无人机场景（城市、户外、室内、工厂、实验室等）、天气条件（白天、夜间、晴天、多云、雨天等），以及不同的光照强度和拍摄角度。该数据集包含6,471张训练图像、548张验证图像和1,610张测试图像。注释包括10个目标类别：行人、人、自行车、汽车、面包车、卡车、三轮车、带篷三轮车、公共汽车和摩托车。 HIT-UAV[30]数据集由2898张由无人机获取的红外热图像组成。它显著扩展了低光环境中的无人机场景。HIT-UAV数据集包含大量小目标，大致包括五个主要类别：人类、车辆、自行车、其他车辆和dontcare。该数据集分为2029张训练图像、290张验证图像和579张测试图像。 NWPU VHR-10[31]是一个高分辨率遥感数据集，包含650张标注图像和150张未标注图像。这些图像从Google Earth和Vaihingen数据集中提取，总共包含3,651个实例。NWPU VHR-10涵盖十个不同类别，如网球场、飞机、船只、篮球场和田径场。 ## 4.3 评估指标为了评估MFDA模型的性能，我们使用精度（P）、召回率（R）、平均精度（mAP）及其变体mAP0.5和mAP0.5:0.95作为评估指标[32]。 P表示真阳性样本与所有预测阳性样本的比率，计算如下： $$Precision=\frac{TP}{TP+FP}$$ 其中TP表示正确预测的阳性样本数量，FP表示被错误分类为阳性的阴性样本数量。 R是正确识别的阳性样本数量与实际阳性样本总数的比率，表示如下： $$Recall=\frac{TP}{TP+FN}$$ 其中FN表示被错误预测为阴性的阳性样本数量。 mAP是所有类别平均精度（AP）的均值，定义如下： $$mAP=\frac{1}{N}\sum_{i=1}^{N}AP_{i},$$ 其中i表示类别索引，N表示训练集中总类别数。 mAP0.5在IoU阈值设置为0.5时测量平均精度，而mAP0.5:0.95在IoU阈值从0.5到0.95范围内评估平均精度。 ## 4.4 实验结果与分析 4.4.1 消融实验。我们评估了WIOUv3中的超参数α和δ，以评估它们对检测精度的影响。在VisDrone2019数据集上测试了关键组合。如表1所示，参数组合 $\\alpha=1.7,\\delta=2.7$ 在所有测试组合中实现了最佳的整体性能。因此，我们在本文的所有后续实验和最终模型中采用此参数设置。为了验证所提出的AIFI、DIDP、DADH和WIOUv3模块在MFDA-YOLO模型上的有效性，在VisDrone2019数据集上进行了以下消融实验。详细的实验结果总结在表2中。表2显示，AIFI结构有效减少了模型参数数量。DIDP模块将mAP0.5提高了3个百分点，展示了其在小目标特征提取方面的优势。DADH模块与基线模型相比减少了25.6%的参数数量，从而满足了轻量级无人机检测的要求。此外，WIOUv3损失函数与基线相比有效提高了mAP0.5 0.3个百分点，使模型能够更好地关注小目标。实验结果表明，MFDA-YOLO的mAP0.5比YOLOv8n高4.4个百分点。此外，R和P在参数数量减少17.2%的情况下达到最佳水平。 4.4.2 对比实验。为了评估所提出方法的有效性，我们进行了广泛的对比实验。这些对比方法包括YOLO系列的几个版本，如YOLOv5s、YOLOv5n、YOLOv8n[14]、YOLOv9-t[33]、YOLOv10n[34]、YOLOX[35]、YOLOv11n[36]、YOLOv12n[37]和YOLOv13n[38]，以及其他模型如FCOS[7]和Retina-Net[39]。每种模型的性能在params、精度、FPS、mAP0.5和mAP0.5:0.95方面进行了全面评估，结果在Visdrone2019-DET-Test数据集下呈现在表3中。实验结果表明，Retina-Net和FCOS由于参数较多，不适合实时无人机目标检测。MFDA-YOLO在参数和检测精度之间取得了更好的平衡，只有2.49M参数，同时达到mAP0.5为0.317和mAP0.5:0.95为0.180。这一性能优于最近的YOLO变体，如YOLOv12n和YOLOv13n。同时，其轻量级设计增强了无人机场景中小目标检测，以149 FPS实现实时性能，并将精度提高了4.5个百分点。
表3. 不同模型在VisDrone2019-DET-Test上的结果。

|------------|-------|-------|-------|-----|--------|-------------|
| 模型 | 参数/M | R | P | FPS | mAP0.5 | mAP0.5:0.95 |
| Retina-Net | 36.51 | 0.306 | 0.379 | 59 | 0.281 | 0.161 |
| FCOS | 32.13 | 0.331 | 0.409 | 60 | 0.309 | 0.174 |
| YOLOv5n | 1.77 | 0.263 | 0.349 | 227 | 0.233 | 0.118 |
| YOLOv5s | 7.03 | 0.320 | 0.410 | 222 | 0.291 | 0.156 |
| YOLOX | 5.03 | 0.316 | 0.434 | 181 | 0.302 | 0.163 |
| YOLOv8n | 3.01 | 0.296 | 0.393 | 277 | 0.273 | 0.153 |
| YOLOv9-t | 2.62 | 0.308 | 0.427 | 106 | 0.294 | 0.170 |
| YOLOv10n | 2.69 | 0.297 | 0.399 | 256 | 0.273 | 0.153 |
| YOLOv11n | 2.58 | 0.301 | 0.399 | 217 | 0.276 | 0.153 |
| YOLOv12n | 2.51 | 0.293 | 0.387 | 208 | 0.268 | 0.152 |
| YOLOv13n | 2.45 | 0.285 | 0.383 | 156 | 0.261 | 0.145 |
| MFDA-YOLO | 2.49 | 0.338 | 0.438 | 149 | 0.317 | 0.180 |

为了可视化MFDA-YOLO模型在解决漏检和误检问题方面的有效性，我们将其与YOLOv8n在混淆矩阵上进行了比较。结果如图8和图9所示。 MFDA-YOLO显著提高了分类精度并降低了类间混淆率。结果表明，"行人"、"面包车"和"汽车"类别的精度分别提高了9、11和7个百分点。"汽车"类别具有最高的分类精度0.66。在密集目标场景中，"摩托车"和"自行车"的精度分别提高了12和7个百分点。在遮挡环境中，"三轮车"的误检减少了13个百分点。总之，MFDA-YOLO模型有效减少了无人机目标检测中的漏检和误检。 ## 4.5 泛化实验为了充分验证MFDA-YOLO的有效性和鲁棒性，我们在HIT-UAV[30]和NWPU VHR-10[31]数据集上进行了泛化实验。各模型在这些数据集上的具体性能结果如表4和表5所示。与YOLOv8基线相比，MFDA-YOLO在mAP0.5上提高了3.8个百分点，在mAP0.5:0.95上提高了2.2个百分点。MFDA-YOLO模型实现了最高的mAP0.5 0.863和mAP0.5:0.95 0.570，优于RTMDet[40]、YOLOv9-t[33]、YOLOv10n[34]、YOLOv11n[36]、YOLOv12n[37]和YOLOv13n[38]等先进模型。这证明了MFDA-YOLO在基于红外的无人机目标检测方面的卓越性能。我们在表5中与几种最先进的目标检测模型进行了全面比较，包括DETR[41]、ATSS[42]、YOLOv5n、YOLOX[35]、TOOD[23]、YOLOv8n[14]、YOLOv9-t[33]、YOLOv10n[34]、YOLOv11n[36]、YOLOv12n[37]和YOLOv13n[38]。如表5所示，DETR模型实现了高达0.859的R，但其大量参数使其难以在实际场景中部署。YOLOX模型实现了0.909的P，但其R相对较低。YOLOv11n模型实现了0.884的mAP0.5，但其P仅为0.872。与基线模型YOLOv8n相比，MFDA-YOLO模型将R提高了2.3个百分点，并实现了最高的mAP0.5 0.889。实验结果验证了MFDA-YOLO在遥感场景中的广泛适用性。 ## 4.6 可视化为了全面评估目标检测模型在无人机场景中的可靠性和灵活性，我们进行了系统的多环境测试。图10展示了MFDA-YOLO模型在各种挑战性环境中的目标检测能力。通过对不同地理位置和无人机飞行高度的检测结果进行详细可视化分析，我们发现MFDA-YOLO模型在复杂环境中检测密集和小目标方面表现出高精度。 MFDA-YOLO模型在密集环境中表现出优异的检测性能，非常适合无人机目标检测应用。在密集人群和车辆场景中，我们发现MFDA-YOLO模型有效识别了行人和摩托车等小目标类别，这些类别经常被YOLOv8n和YOLOv11n模型漏检。此外，它成功减少了车辆的误分类。为了验证MFDA-YOLO模型在红外环境中的性能，我们对YOLOv8n、YOLOv11n和MFDA-YOLO进行了全面的热图分析，结果如图11所示。在第一行图像中，MFDA-YOLO模型能够检测到更多小目标。在第二行图像中，YOLOv8n在处理密集场景时表现出明显的注意力不足，导致高漏检率和误检。在第三行图像中，YOLOv8n和YOLOv11n都存在漏检。相比之下，MFDA-YOLO模型检测到大多数目标并减少了漏检和误检。总体而言，MFDA-YOLO模型可以更多地关注细粒度细节并具有更广泛的检测范围，与YOLOv8n和YOLOv11n相比显示出更好的检测性能。 ## 5. 结论本研究提出了一种基于YOLOv8n的无人机航拍场景目标检测模型。我们在骨干网络中集成了AIFI特征交互模块，以增强特征表示能力。DIDP模块使用SPD-Conv将P2层的小目标特征转移到P3层进行特征融合。然后使用C-OKM模块恢复缺失的特征信息。我们设计了DADH模块，该模块从共享卷积层学习任务交互特征并动态选择它们，以减少模型参数。此外，我们利用WIOUv3损失函数提高模型对具有挑战性的小目标的聚焦能力。 MFDA-YOLO模型在VisDrone2019上实现了mAP0.5提高4.4个百分点和mAP0.5:0.95提高2.7个百分点，并在HIT-UAV和NWPU VHR-10数据集上实现了最高的mAP0.5。与基线相比，该模型减少了17.2%的参数，确保了实时性能。我们未来的研究重点是动态自适应机制和模型剪枝技术，以构建轻量级检测网络，可以在无人机和边缘设备等低计算平台上实现高效部署。