【导读】
在环境监测、安防巡查和城市管理等场景中,小型无人机已成为提升效率的重要工具。然而,不明无人机的非法闯入问题也日益严峻,尤其是在复杂环境中,这类小目标因尺寸微小、背景融合、光照变化等因素,极易造成检测"盲区"。
传统目标检测模型面对这类挑战,往往在效率、精度和部署成本之间难以平衡。针对这些难题,本文介绍了一种全新轻量化模型------LMWP-YOLO,在保持高精度检测的同时,显著降低模型体积和计算消耗 。本文将从背景问题、现有模型瓶颈、核心创新点及实验对比等方面进行全面解析。>>更多资讯可加入CV技术群获取了解哦
随着无人机技术的不断演进,其应用场景正快速从军用拓展至民用、商用甚至个人领域。
灵活、高效、低成本的飞行优势使其在农业巡检、灾害监控、交通执法等领域大放异彩。然而,正是这类小型无人机,也给公共安全和隐私保护带来了巨大隐患------它们体型小巧、飞行隐蔽,一旦用于非法监视或恶意入侵,将极难被及时发现和阻止。
当前多数深度学习目标检测算法虽然在通用目标识别中取得了良好成绩,但面对"小目标+复杂背景"这一组合问题时,仍然存在以下三个技术瓶颈:
- 小目标特征表达不足: 在深层特征中细节被压缩,检测易"漏网"。
- 多尺度融合能力有限: 尺度差异大时难以统一表达目标信息。
- 资源消耗过高: 模型臃肿,难以部署到边缘设备或低算力平台。
针对上述挑战,本文提出了一种基于YOLO11架构改进的轻量级检测模型------LMWP-YOLO ,通过引入多维协同注意力机制、多尺度特征融合、Wasserstein边界框优化与网络剪枝策略,在复杂环境下显著提升了对小型无人机的检测精度与实时性,特别适合部署在移动端或低功耗设备中使用。

论文标题:
Improved YOLO for long range detection of small drones
论文链接:
研究方法
YOLO11是一种高效的目标检测算法,相比YOLOv7和YOLOv8显著提升了特征提取能力,尤其在小目标检测和复杂背景场景中表现突出。以CSPDarknet为骨干网络,YOLO11增强了模型捕获细节和鲁棒特征的能力。相比前代,YOLO11采用了更先进的特征融合策略,通过改进的FPN和PAN结构实现更有效的多尺度特征聚合。此外,优化的非极大值抑制(NMS)策略增强了对冗余边界框的抑制,从而提高了检测准确率。为满足实时检测需求,本研究以轻量级YOLO11n为基线模型,并进一步优化。YOLO11n架构由四个关键部分组成:输入层、骨干层、颈部层和输出层,整体结构如图1所示。

输入层负责图像预处理任务(如尺寸调整和归一化),以确保输入数据的一致性。骨干层负责从图像中提取深层语义特征,由多个卷积层、池化层和激活函数组成,能够捕获从边缘、纹理等低层元素到形状等高层结构的图像特征。颈部层位于骨干层和输出层之间,执行特征融合和增强,采用PANet加强不同层级特征间的连接,通过多尺度特征学习提升网络对不同尺度目标的检测能力。输出层将骨干层和颈部层提取并处理的特征转化为最终检测结果,包括目标边界框定位、类别标签预测和置信度分数计算。
如图2所示,本文对YOLO11网络进行了优化和改进,开发了一种轻量高效的网络,具体改进如下:
- 采用深度可分离卷积和优化的激活函数构建新的骨干网络,以减少模型参数和计算成本。
- 在网络的颈部层引入新设计的MAFR模块,提升对无人机小目标检测的特征表征能力和效率。
- 采用更有效的损失函数,结合归一化Wasserstein距离和动态加权机制,增强边界框相似性度量的鲁棒性。
- 对网络结构应用基于剪枝的优化策略,移除对特征提取贡献极小的冗余滤波器及其对应特征图,显著降低模型的计算成本和参数量。

轻量级特征提取网络模块
无人机检测中的系统延迟会推迟对不明无人机的及时识别,危及检测成功率和安全性。因此,实现高效的实时无人机检测成为关键目标。YOLO11的骨干层执行基本的特征提取任务,包括局部特征提取、空间降维和通道融合。在该骨干中,C3K2模块基于CSP结构优化梯度流,同时通过3×3和2×2卷积捕获多尺度特征。这一优化改善了梯度流,减少了计算冗余,增强了特征表征能力。CSP模块由卷积、批量归一化和SiLU激活函数组成,能高效提取局部特征、稳定训练并增强模型的非线性拟合能力。然而,传统卷积和C3K2模块依赖大量计算密集型全连接卷积操作,显著降低了推理效率,对无人机检测的实时性能产生不利影响。为解决这些问题,本研究引入了改进的骨干设计LCbackbone99。LCbackbone通过集成深度可分离卷积和优化激活函数的轻量级设计降低计算复杂度。此外,它还结合了SE模块1010和大卷积核以增强特征表征和上下文建模能力,在保持速度与准确性平衡的同时实现高效推理。
如图3所示,LCbackbone模块首先利用深度可分离卷积将卷积操作分解为两步:首先,逐深度卷积独立提取每个通道的空间特征;其次,使用1×1核的点卷积实现跨通道特征融合。为进一步优化性能,该模块采用了H-Swish激活函数 ,通过硬Sigmoid和线性变换的组合替代复杂的指数运算,提高了计算效率。SE模块集成在网络末端,通过全局平均池化捕获每个通道的全局信息,生成自适应通道权重以增强特征重加权和表征能力。此外,在网络深层引入5×5卷积核以扩大感受野 ,捕获更广泛的上下文信息。最后,在全局平均池化层后添加一个1280维的1×1卷积层,以增强模型的全局特征拟合能力。

改进的颈部结构
改进的颈部结构集成了多维协同注意力机制,结合多尺度融合和残差连接以增强性能。在无人机小目标检测任务中,小目标在特征图中占据空间极小,导致特征表征能力差。YOLO11的颈部层通过卷积和C3K2模块增强多尺度融合的感知能力,但小目标特征常丢失或稀释。为此,我们提出MAFR-颈部层,引入多维协同注意力以捕捉特征间关系。轻量级多尺度融合模块结合SE模块和残差连接优化特征提取。微型残差块通过改进梯度传播增强性能,调整颈部层以提升高分辨率特征表征能力。
如图4所示,MAFR通过对输入特征的通道、宽度和高度维度建模协作关系,捕获各维度的注意力权重。它处理特征张量F∈RC×H×W,使用全局平均和标准差池化沿通道维度提取统计特征,如公式(3)和(4)所述。



基于区域加权Wasserstein损失的改进损失函数
在无人机小目标检测任务中,目标尺寸小、背景复杂和分布密集带来了挑战。因此,边界框相似性度量的鲁棒性和准确性对检测性能至关重要。然而,YOLO11依赖IoU的边界框回归损失函数存在明显局限性:对目标微小位置偏移高度敏感,在边界框无重叠或完全包含时出现梯度消失问题。为克服这些限制,本研究引入了一种新型损失函数。其核心思想是将边界框相似性建模为二维高斯分布,利用Wasserstein距离计算预测框与真实框的分布差异。基于目标区域的动态加权机制优先优化小目标,同时引入尺度差异项提升损失函数对多尺度场景的适应性。
水平边界框R=(cx,cy,w,h)被表示为二维高斯分布。其中(cx,cy)表示中心点坐标,w和h分别表示框的宽度和高度。对应的高斯分布定义为:

无人机检测网络的剪枝方法
在有限计算资源下高效提取和利用小目标特征是无人机小目标检测任务的关键挑战。YOLO11通过骨干卷积层和颈部层的多尺度特征融合提升特征提取和目标感知能力,但卷积层中许多未剪枝的滤波器引入了冗余,因为小目标特征仅占据卷积特征图的极小部分。这导致部分滤波器特征激活微弱,效率低下,浪费计算资源。为解决这一问题,本文在YOLO11网络结构中引入了基于剪枝的优化策略。该策略通过评估卷积神经网络中每个滤波器的重要性,移除对网络输出贡献极小的冗余滤波器及其关联特征图,从而降低计算成本和网络参数量,提升模型效率。

具体而言,使用L1范数评估卷积层中每个滤波器的重要性。对于第i层第j个滤波器Fi,其权重张量表示为Fi,j∈Rni×k×k,L1范数定义为:

实验结果与分析
数据集与训练
随着民用无人机的普及,其在日常生活中的应用迅速扩展。公开数据集提供了多种环境条件下捕获的无人机图像,但许多数据集缺乏足够的小目标特征信息,可能影响模型检测小型无人机目标的准确性。为此,本研究采用公开的TIB-Net小型无人机目标数据集,包含总计2850张各类无人机图像(包括多旋翼和固定翼无人机),距离约500米,覆盖从白天到夜晚不同光照条件下的场景。本研究选择2565张图像作为训练集,285张作为验证集。数据集通过文本文件标注小型无人机目标,包含五列:类别标签、边界框中心坐标(x和y)、宽度和高度。图9展示了训练集中无人机类别的数据分布及边界框规格。为确保对照实验一致性,所有模型使用相同超参数,输入图像尺寸固定为640×640。模型在A100上使用2565张训练图像训练100个epoch,批量大小为48,优化器为AdamW。

本研究的实验环境基于Ubuntu 20.04操作系统,搭载Tensor Core A100 GPU,40GB内存。编程语言为Python 3.9.11,深度学习模型基于PyTorch 1.10.0、cudnn 8.2.0和torchvision 0.12.0构建。计算库为numpy 1.23.3,并行计算由NVIDIA CUDA Toolkit 11.3.0支持。
代码发布于:
模型轻量化与检测准确性评估
为全面评估LMWP-YOLO的有效性,将改进的YOLO模型与基线模型在相同训练数据集上进行比较。结果如表1所示,表明LMWP-YOLO在所有性能指标上均优于基线模型。具体而言,其平均精度提升9.72%,召回率提升29.48%,F1分数提升19.61%,mAP@0.5提升22.07%,mAP@0.95提升29.31%。

这些改进主要归因于颈部层集成的新设计MAFR模块。该模块通过动态权重分配最小化背景噪声和无关区域的影响,同时利用局部特征提取和梯度优化机制保留目标区域的细节信息。此外,增强的损失函数通过鲁棒设计和有效的尺度差异建模,显著提升了小目标边界框预测的准确性。
此外,LMWP-YOLO实现了2.71 MB的紧凑模型尺寸和1.23M的参数量。相比原始YOLO11n基线,分别减少了47.88%和52.51%。这些改进主要得益于集成以深度可分离卷积为基础构建块的LCbackbone模块。剪枝策略通过消除冗余滤波器进一步降低了计算开销。
实验结果证实了所提轻量化方法的有效性,表明LMWP-YOLO特别适合微型嵌入式系统。为更精确评估模型性能,在IoU阈值为0.5的测试中生成改进前后的PR曲线,如图10所示。

精确率-召回率曲线下面积(AUC-PR)是评估模型性能的标准指标。更高的AUC-PR反映了在不同精确率-召回率权衡下的更优性能。改进模型表现出显著更高的AUC-PR。此外,图11展示了LMWP-YOLO和基线模型获得的混淆矩阵,可视化目标类别的分类情况。在图11中,每行代表预测类别,每列代表真实类别。对角线上的值表示该类别的正确分类比例。如图11所示,相比基线模型,LMWP-YOLO显著降低了假阴性(FN)率,提高了正确分类实例的比例,表明LMWP-YOLO有效提升了检测准确性。

消融实验
为评估所提创新(包括"LCbackbone"、"MAFR"、"AWLoss"和"剪枝")的检测性能,进行了消融实验。这些实验评估了每种算法改进的贡献,重点关注模型简化、注意力机制和多级特征集成。性能指标包括平均精度均值(mAP)和模型尺寸。表2和图12总结了LMWP-YOLO在不同优化策略下数据集上的结果。


如表2和图12所示,方法(1)相比基线模型减少0.47 MB模型尺寸的同时提升了mAP。这一改进主要归因于增强骨干模块中采用的深度可分离卷积和H-Swish激活函数,有效降低了计算复杂度。此外,SE模块通过优化通道间特征交互提升了骨干性能。
方法(2)表明新设计的MAFR相比原始颈部层减少1.47 MB模型尺寸,主要得益于结构优化,尤其是P4和P5层。此外,mAP@0.5相比基线模型提升15.85%。这一改进得益于MAFR能够在通道和空间维度同时建模注意力,从而增强对关键区域特征的聚焦。多尺度融合模块通过分组卷积进行多尺度特征提取,并利用1×1卷积高效集成这些特征,进一步提升了模型对不同尺度目标的适应性。微型残差模块则通过局部特征提取和梯度优化增强了特征表征能力。
方法(3)表明新设计的损失函数相比基线模型提升mAP@0.5达4.18%。这一改进得益于引入归一化Wasserstein距离增强了边界框回归性能,以及动态加权机制通过为小目标分配更高优化权重而优先处理它们。
方法(4)在方法(1)基础上进一步降低模型尺寸1.46 MB的同时提升mAP 6.85%,表明LCbackbone和MAFR模块的组合能够协同优化骨干特征提取和多尺度特征融合。类似地,组合方法(1)、(2)和(3)技术的方法(5)、(6)和(7)强调了所提"LCbackbone"、"MAFR"和"AWLoss"在模型轻量化、特征融合效率和边界框回归性能三个关键维度的优势。
方法(8)在方法(7)基础上进一步减少模型尺寸0.56 MB的同时提升mAP。这一改进主要归功于剪枝优化,通过L1范数重要性过滤消除冗余参数同时保留关键计算路径,有效减小模型尺寸而不影响性能。这些发现表明"LCbackbone"、"MAFR"、"AWLoss"和"剪枝"的组合成功平衡了小目标特征提取、特征融合、边界框回归优化和模型轻量化。因此,LMWP-YOLO模型采用方法(8)的结构以确保最优性能。
本文使用Grad-CAM46对模型改进策略进行可解释性分析。图13展示了YOLO11n和LMWP-YOLO在无人机数据集上由Grad-CAM生成的热力图。相比YOLO11n,LMWP-YOLO展现出更强的聚焦目标位置能力,同时减少对无关环境信息的关注。对于小目标,LMWP-YOLO算法更有效地集中于正样本区域,最小化无关环境细节的干扰。这一分析凸显了多维协同注意力机制在增强跨维度特征依赖性方面的有效性。此外,多尺度特征融合模块高效提取多尺度特征,改进的损失函数则增强了边界框回归对小目标形状和位置建模的鲁棒性。

与先进方法的比较
本研究将提出的LMWP-YOLO方法与多种现有单阶段和两阶段目标检测算法进行比较,包括Faster-RCNN、RT-DETR、SSD、EfficientDet、YOLOv6、YOLOv8、YOLOv9-Tiny和YOLOv10。性能指标包括每类平均精度(mAP)、召回率、F1分数和精确率。精确率和mAP采用PASCAL VOC 2007基准,IoU阈值为0.5。表3和图14总结了在TIB-Net数据集上的结果。


结果表明,我们的方法实现了95.7%的mAP,相比YOLO11基线网络检测准确率有适度提升。此外,LMWP-YOLO以32.5%更高的mAP超越可比算法YOLOv10。与轻量级YOLOv9-Tiny算法相比,我们的方法在mAP上提升46.1%,同时减少模型尺寸35.7%。
相比SSD-MobilenetV2、Centernet-Resnet50、DETR-Resnet18、YOLOv6和YOLOv8,LMWP-YOLO实现了整体性能提升,mAP分别提高73.1%、47.1%、14.1%、57.0%和25.2%。此外,LMWP-YOLO的模型尺寸显著小于上述算法。
如表3所示,相比LMWP-YOLO,其他基于YOLO的算法表现出精确率显著高于召回率的特点。这一差异主要因为在小目标检测中,其他YOLO模型采用更高置信度阈值或更保守的检测策略以减少误报,但同时也遗漏了部分真实目标(尤其是小目标),导致召回率下降。相比之下,本研究引入MCA模块和轻量级多尺度特征融合,结合NWD和基于目标区域的动态加权机制,提升了对小目标的敏感性,提高了召回率同时保持高精确率。

如图15所示,本研究使用TIB-Net数据集比较LMWP-YOLO与其他先进算法的检测结果。结果显示,对比算法在小目标检测上表现出不同的置信度水平。YOLOv6n、YOLOv8n、YOLOv9t、YOLOv10n和基线YOLO11n均表现出不同程度的漏检和误检。漏检(假阴性)主要因为这些模型在提取小目标细节时未能充分整合浅层细粒度特征,导致小目标在高层特征图中因下采样而模糊。此外,锚框尺寸可能与小目标差异显著,导致IoU值低而漏检目标。误检(假阳性)发生在模型面对复杂背景或低对比度小目标时,将背景噪声误认为目标,降低检测准确性。相比之下,LMWP-YOLO显著提升了置信度和检测准确性。这一增强主要得益于集成通道和空间维度建模的注意力机制及改进的多尺度特征提取模块。这些创新强化了小目标的特征提取和信息传递,提升了模型检测能力。此外,LMWP-YOLO通过动态调整权重和精细设计的损失函数减少背景噪声导致的误报,有效改善了小目标特征的多维表征能力。
结论
为解决复杂背景下小型无人机目标检测精度低、特征提取能力有限以及实时性能与计算效率间权衡的挑战,本研究提出LMWP-YOLO,一种增强的轻量级检测框架。专为远距离小型无人机目标检测设计,该框架集成轻量级网络组件、多尺度特征融合模块和动态优化损失函数,使其非常适合复杂环境部署。

主要贡献如下:
- 骨干层设计深度可分离卷积和高效激活函数,显著减少模型参数,实现轻量化优化;
- 颈部结构集成多维协同注意力机制和多尺度融合模块,增强小目标检测能力;
- 改进损失函数进一步提升远距离小目标的边界框匹配能力;
- 剪枝策略通过消除骨干和颈部冗余滤波器,显著提升计算效率。
实验结果表明,LMWP-YOLO在复杂背景下显著提升小目标检测性能,相比基线模型精确率提高9.72%,召回率提升29.48%,mAP增加22.07%。此外,剪枝技术促成轻量化设计和实时性能,模型参数量减少52.51%。然而,模型在数据集上的泛化能力仍有限,对极端天气条件下的无人机目标检测需进一步改进。此外,模型对密集分布目标或高相似度场景的适应性仍有不足,无人机群检测需更多进展。未来研究将聚焦扩展数据集、优化无人机群检测场景,解决目标遮挡和复杂分布问题。我们还将基于Transformer全局依赖建模增强算法,进一步提升模型对无人机群的检测能力。