Real-Time Detection of Unauthorized Unmanned Aerial Vehicles Using SEB-YOLOv8s
使用SEB-YOLOv8s实时检测未经授权的无人机
0.论文摘要
摘要:针对无人机的实时检测,复杂背景下无人机小目标容易漏检、难以检测的问题。为了在降低内存和计算成本的同时保持较高的检测性能,本文提出了SEB-YOLOv8s检测方法。首先,使用SPD-Conv重建YOLOv8网络结构,以减少计算负担并加快处理速度,同时保留更多小目标的浅层特征。其次,我们设计了AttC2f模块,并用它替换了YOLOv8s主干中的C2f模块,增强了模型获取准确信息的能力,丰富了提取的相关信息。最后,引入双层路由注意优化网络的颈部部分,降低模型对干扰信息的注意并过滤掉。实验结果表明,该方法的mAP50达到90.5%,准确率达到95.9%,与原模型相比分别提高了2.2%和1.9%。mAP50-95提升2.7%,模型占用内存大小仅增加2.5 MB,有效实现了低内存消耗的高精度实时检测。
1.研究背景
随着社会技术的不断创新和科技电子设备的进步,无人机技术得到了快速发展,并在农业、交通、军事等领域得到了广泛应用[1,2],但这也引发了误用和违规行为的增加,对社会和国家安全构成潜在威胁[3]。
因此,反无人机系统对于确保公共安全、国家安全和关键基础设施的安全至关重要。然而,有效探测无人机是对抗无人机的先决条件,为反无人机系统提供必要的信息,以协助及时采取反制措施。
如今,由于特征提取能力强的深度学习目标检测方法发展迅速,将深度学习应用于无人机检测逐渐成为研究热点。这种方法在效率和成本方面具有优势。然而,计算机视觉对无人机的实时检测还存在一些挑战:一是无人机在复杂背景下容易被漏检和误检;二是小型靶标无人机频频被忽视;第三,难以平衡算法的检测成本和性能。YOLOv8是当前YOLO系列中的一个杰出算法,已经在计算机视觉领域取得了重大成就。YOLOv8采用无锚点检测方式,在检测速度和准确率方面表现出色。因此,本文对YOLOv8s进行了增强,提出了SEB-YOLOv8s算法,以平衡检测性能和计算资源消耗。这是为了解决探测小型目标无人机和无人机在复杂背景中被遗漏或误检测的倾向。我们对这项工作的主要贡献概述如下:
•我们提出了用于无人机实时检测的SEB-YOLOv8s算法。针对复杂背景下无人机小目标易漏检、难辨别的挑战,SEB-YOLOv8s检测方法显著提高了检测效率。这种改进来自于SPD-Conv模块的集成,AttC2f模块的设计,以最大限度地利用来自特征图的空间信息,以及BRA模块的引入,以平衡计算成本,同时保持高检测性能。
•AttC2f模块的设计增强了信息提取能力,可以聚合跨通道语义信息,捕捉不同维度之间的交互,提高浅层特征中小目标信息的利用率,提高小目标和复杂背景的检测性能。
•我们使用公共数据集Anti-UAV评估了我们提出的实时UAV检测算法。实验结果表明,它可以在降低成本消耗的情况下实时实现高精度检测,在性能方面明显优于YOLOv8s。检测性能堪比YOLOv8x的五分之一,而模型大小仍然只有它的五分之一。
2.相关工作
现有的无人机检测研究不仅依赖于计算机视觉技术,还使用其他检测技术来检测无人机。以下是一些典型的研究成果。
使用深度学习神经网络和计算机视觉技术来检测无人机是一种强大的方法。此前,Mahdavi等[4]将深度学习神经网络与SVM和KNN分类等传统机器学习方法分别用于无人机检测,发现神经网络分类器的准确率更高。为了探测更远距离的无人机,Magoulianitis等[5]利用超分辨率技术将数据在到达探测系统前放大两倍,增加了无人机在图像屏幕上的存在感。这与Faster R-CNN[6]检测系统相结合,提高了检测过程的召回率。Zeng等[7]通过提出基于RetinaNet的无人机检测网络,解决了无人机尺寸差异较大的问题。他们以Res2net为骨干网络,从多个感受野中提取无人机目标特征,并通过新颖的混合特征金字塔结构设计了卷积神经网络。这种结构实现了分层多尺度特征融合,增强了跨不同无人机尺寸检测的鲁棒性。针对漏检、精度低、检测速度慢等问题,Hamid R.Alsanad等[8]在YOLOv3[9]的基础上进行了改进,提高了检测规模,减少了小型无人机检测的漏检。这显示了优于传统检测方法的潜力,但具有单个大目标的无人机数据场景仍然缺乏对小型无人机和复杂场景下无人机的检测能力。为了检测容易出现漏检和误检的无人机,Cheng等[10]提出了无人机检测方法YOLOv4-MCA。该方法选择MobileViT作为骨干网,其轻量级特征可以降低计算成本,同时有效提取无人机目标的全局和局部特征。它还采用协调注意力来改进路径聚合网络(PANet),优化无人机目标的锚定框架。这种方法提高了检测效率,减少了漏检,并最大限度地减少了无人机的误检。Hansen Liu等[11]通过剪枝YOLOv4[12]的卷积通道和快捷层,设计了为快速移动无人机量身定制的实时检测算法,提高了无人机目标检测的速度,但代价是检测精度降低。Ulzhalgas Seidaliyeva等人[13]针对无人机快速移动的特点设计了量身定制的实时检测算法,提高检测精度。他们使用固定摄像头收集数据,并将探测无人机的任务分为两个独立的任务。为了提高无人机检测的准确性,使用固定摄像机收集数据,并将无人机检测任务分为两个独立的任务:检测运动物体和对检测到的物体(如无人机、鸟类和背景)进行分类。运动物体的检测基于背景减除,而分类使用卷积神经网络(CNN)进行。该方法在检测无人机时可以获得较高的精度和处理速度,但高度依赖静态背景,对复杂背景的适应性有限。吕耀文等人[14]旨在充分利用高分辨率无人机图像来提高无人机探测的准确性。作者利用静止摄像机获取的高分辨率图像检测无人机,提出了背景差分与改进YOLOv5s相结合的检测方法,排除了背景信息,提高了检测效率,但过度依赖静态背景,对复杂环境下的无人机检测无效。尽管有这些改进,但无人机的探测仍然面临挑战,因为小型无人机目标难以探测,并且在复杂背景下容易受到干扰。
除了图像处理技术,其他传感技术也被应用于无人机探测。Sara等[15]利用卷积神经网络(CNN)、递归神经网络(RNN)、卷积递归神经网络(CRNN)等深度学习技术,通过飞行中无人机独特的声学指纹来检测和识别无人机。它能够检测无人机的存在并识别无人机的类型,但无法确定无人机位置的准确信息。M.Yaacoub等[16]提出了一种基于卷积神经网络(CNN)和迁移学习的无人机声学识别方法,以提高反无人机系统的声学检测能力。该方法在大型音频数据集AudioSet上预训练CNN,并在自定义声学数据集上进行微调,实现了基于log-Meier谱特征的无人机声音的高效分类和检测,为基于深度学习技术的声音检测器研究奠定了基础。然而,该研究主要集中在声音检测上,并没有解决无人机位置的准确确定。现有的无人机检测技术依赖于深度学习,资源要求高,不易应用于嵌入式设备。Brighente等[17]开发了反无人机音频监视哨兵(ADASS),这是第一个可以在物联网设备中实现的基于噪声的无人机检测系统。该系统使用嵌入式机器学习模型和压缩卷积神经网络对来自机载麦克风的音频信号进行分类,使其能够远程监控飞行中的无人机。然而,其在复杂噪声环境中的有效性需要进一步研究。Przemyslaw Flak等人[18]提出了一种基于射频传感器网格的无人机监视系统,该系统使用分布式传感器网格和定制神经网络架构,可分为三个阶段,包括软件无线电(SDR)设备中的信号采集和硬件加速时频域变换计算、用于无人机存在检测的嵌入式计算机以及数据融合中心的无人机识别。射频方法的独特优势在于,它能够实现早期入侵检测(识别无人机的发射顺序并在起飞前指示操作员的位置)和对无人机进行分类。该系统不仅在嘈杂的模拟环境中表现出出色的性能,在室外场景中进行验证,而且在传感器网络中实现了高度的准确性。然而,它存在高数据传输负载和测试场景缺乏复杂性的问题。
这些非基于图像的检测方法在检测UAV方面表现出良好的能力,特别是在特定场景或特殊情况下(例如,当音频或RF信号很强时)。然而,非基于图像的方法的应用场景往往有限。与现有的基于图像和非基于图像的无人机检测方法相比,本文提出的SEB-YOLOv8s算法具有更广泛的适用性。它在在复杂背景下检测小型目标无人机和无人机,并且在资源使用方面也具有成本效益。我们相信这项工作将是对无人机探测领域的有效补充。该方法将在下一节中详细描述。
3.主要工作&核心思想
在本节中,首先,介绍YOLOv8算法;然后详细描述了本文提出的用于无人机目标检测的SEB-YOLOv8s网络,以解决实时检测无人机时小目标容易漏检和复杂背景下无人机目标难以检测的问题。
YOLOv8-YOLOv8N、YOLOv8s、YOLOv8m、YOLOv8l-和YOLOv8x有五种不同的模型,随着模型大小的增加,检测精度也会增加。该模型的网络结构由三个主要部分组成:主干、颈部和头部。网络结构如图1所示,图中的数字表示模型的层数。
图1。YOLOv8的网络结构。
在主干部分,YOLOv8将修改后的CSPDarknet53作为主干网络,通过C2f模块获取不同尺度的特征。这里,C2f模块使用梯度分流连接,跨级部分模块(CSP)用于执行具有批量归一化和SiLU激活函数的卷积运算,最后通过快速空间金字塔池(SPFF)模块输出特征图。
在颈部部分,YOLOv8的灵感来自PANet[19]结构。与之前的模型相比,YOLOv8简化了上采样后的卷积运算PAN结构,在保证性能的同时减少了计算量以降低复杂度。通过结合PAN和FPN的优点,形成PAN-FPN自上而下和自下而上的融合特征,融合浅层和深层类型的信息,增加特征的信息量,提高特征图的质量,使其更加完整和丰富。
在头部部分,YOLOv8使用解耦的头部结构来检测头部。结构设计为检测框回归预测和目标分类的两个独立分支,分别选取两种不同的损失函数,即用于检测框回归预测的分布式焦点损失(DFL)[20]和用于分类选择的完全相交完全IoU(CIoU)[21]。这种解耦检测结构可以更好地适应不同任务的特点,提高模型在对象分类和检测框回归方面的性能。
3.1 SEB-YOLOv8s的体系结构
SEB-YOLOv8s的框架如图2所示,图中的数字表示模型的层。由于图像中小比例无人机检测不佳和复杂背景下无人机检测困难的挑战,YOLOv8尽管能够通过结合其颈部PAN和FPN的优势以及三个检测头来检测各种规模的无人机,但并不能完全满足多样化场景下实时无人机检测的要求,尤其是在检测复杂背景下的小目标和无人机时。为了缓解这些问题,本文使用YOLOv8s作为基础模型,旨在平衡模型大小和检测性能。同时在整体网络结构构建、提取特征语义信息丰富、注意力机制等方面进行改进。改进战略的主要思路概述如下:
图2。SEB-YOLOv8s的网络结构。
首先,引入SPD-Conv模块,重新配置网络结构,以保留无人机在小目标或低质量图像上更多的浅层语义信息。
然后,为了提高浅层特征图中对无人机的注意力并抑制复杂背景的干扰,提出了AttC2f模块,使模型更充分地利用特征图的空间信息,其中引入的EMA模块具有不需要特征图降尺度的优点,并且能够提供更全面的特征图,引入EMA模块来提供高质量的像素级深度特征图,而不需要特征图降尺度。最后,引入两层路由注意机制,通过筛选特征图过滤掉最不相关的区域,以较少的计算量增加对无人机目标的注意,可以兼顾实时检测速度和更好的检测性能。
3.1.1 增强的功能细节
在探测无人机时,其在图像中的比例相对较小,难以在远距离探测无人机小目标。尽管深度学习神经网络已经在各个领域做出了重大贡献,但用于提取小目标特征的步进卷积和池化操作仍然会产生损失,尤其是在具有低像素计数或小目标的图像中。无人机分为大型、中型和小型,虽然YOLOv8的多尺度检测有助于无人机的检测,但多尺度融合通常涉及跨步卷积和最大池化。随着网络深度的增加,出现了细节信息丢失、特征表示不够准确等问题。传统卷积可以学习有限的特征;因此,对于小目标特征或不清晰图像的提取,结果往往不令人满意。在本文中,我们引入了一个非跨步卷积或池化模块(SPD-Conv)[22]来重新调整网络结构。
SPD-Conv由两部分组成:空间到深度(SPD)层和非跨步卷积。首先,SPD部分应用神经网络内的原始图像变换技术[23]扩展来对特征图进行下采样,然后进行非步幅卷积(步幅=1)来进一步变换特征图。SPD通过将原始特征图X切片成多个子特征图并沿通道维度连接它们以形成X'来对其进行下采样。每个子特征图是原始特征图的子集,具有一定程度的下采样。在SPD特征变换层之后,通过添加非跨步卷积层将下采样的特征图X′进一步变换为X′,以降低通道维数并提取更多的鉴别特征信息。这种方法有助于减少计算负担,加快网络的处理速度,同时保留重要信息。在本文中,我们将原始模型CBS模块中的跨步卷积替换为非跨步卷积,使用SPD结合非跨步卷积来调整网络结构,最大限度地减少无人机目标的特征损失,保留更多的浅层语义信息。
3.1.2 用AttC2f模块替换C2f
对于复杂背景中的无人机检测,背景和无人机的细节或特征交叉,无人机目标是一小部分,通常会出现特征要么没有提取出来,要么被错误分类为背景特征,导致检测泄漏。为了解决这个问题,通过引入一个名为AttC2f的新模块,对C2f模块进行了改进,其结构如图3所示。这种修改增强了对无人机目标的关注,对计算的影响最小。在AttC2f模块中引入了高效多尺度注意力模块(EMA)[24];EMA模块通过跨空间通道的语义信息的并行化和聚合来采用多尺度卷积进行学习。通过分支选择不同大小的卷积核允许CNN在相同的特征提取阶段内收集不同尺度的空间信息。此外,并行子网块的引入有助于有效地捕获不同维度之间的交互并在它们之间建立依赖关系,有效地捕获远程依赖关系和精确的位置信息,从而增强卷积神经网络(CNN)对高层特征图的像素级关注。
图3.AttC2f模块。
与通过降低通道的维度来建模跨通道关系的通道或空间注意力机制相反,降低通道维度来建模跨通道关系可能具有许多含义和缺点。首先,通道降维可能导致信息丢失,因为较少的通道可能无法完全捕获原始数据的所有细节。第二,计算成本可能会增加,尽管1 × 1卷积相对轻量级,但在大型网络中仍然需要考虑计算开销。超参数的选择也成为一个挑战,不恰当的选择会导致性能下降。此外,通道降维可能并不适用于所有任务,其有效性可能取决于任务的特性和数据的特性。最后,通道降维可能会降低模型的可解释性,因为较少的通道可能不如原始通道直观。EMA模块高效地学习通道描述,同时在卷积运算中保留通道维数,并提供更好的深度特征图,用于生成更好的像素级注意力。EMA的整体结构如图4所示。
图4.EMA模块。
特征分组:EMA模块通过通道分组将输入特征图 X ∈ R H × W × C X ∈ \mathbb{R}^{H×W×C} X∈RH×W×C划分为多个跨通道维度的子特征 G G G,其中组可以表示为 X = [ X 0 , X i , . . . , X G − 1 ] X = [X_0, X_i, ..., X_{G−1}] X=[X0,Xi,...,XG−1],其中 X i ∈ R H × W × C X_i ∈ \mathbb{R}^{H×W×C} Xi∈RH×W×C表示第 i i i个子特征,每个子特征用于学习不同的语义信息。这有助于模型更好地理解输入特征图中不同通道之间的关系,并允许学习的注意力权重微调每个子特征中感兴趣区域的特征表示。
并行子结构:在1 × 1分支中的两个并行路径之间实现不同的跨通道交互特征,通过简单的乘法聚合每个组内的两个通道注意力图。并且在3 × 3分支中,通过3 × 3卷积捕获局部跨通道交互以扩展特征空间。在线性卷积的基础上引入非线性以更好地建模特征之间的关系,并且EMA模块不仅对通道间信息进行编码以调整不同通道的重要性,而且保留了精确的空间结构渠道中的信息。这种设计有助于更好地理解和利用输入特征图的语义信息。
跨通道学习:在不同空间维度方向聚合跨空间信息,实现更丰富的特征聚合的方法。引入了两个张量,一个来自1 × 1分支的输出,另一个来自a3 × 3分支的输出。作者使用2D全局平均池化对1 × 1分支输出中的全局空间信息进行编码,而3 × 3分支的输出在通道特征的联合激活机制之前直接转换为相应的维度形式。2D全局池化操作旨在对全局信息进行编码并对远程依赖性进行建模,如下所示:
为了提高计算效率,作者将Softmax函数应用于2D全局平均池化的输出,以拟合线性变换。然后将该并行处理的输出乘以矩阵点积运算以获得第一空间注意力图。该地图在同一处理阶段收集不同比例尺的空间信息。类似地,作者还在3 × 3分支中采用2D全局平均池来编码全局空间信息,而1 × 1分支在信道特征的联合激活机制之前直接转换成相应的维度形式。然后使用sigmoid函数计算每个组内的输出特征图,聚合生成的两个空间注意力权重。EMA的最终输出与X大小相同,这对于现代架构中的堆叠既高效又有效。
通过跨空间学习方法,EMA模块可以对远程依赖性进行建模,并嵌入关于无人机的精确位置信息。融合不同尺度的上下文信息使CNN能够为高级特征图产生更好的像素级注意力。通过并行使用3 × 3和1 × 1卷积,可以更好地利用中间特征之间的上下文信息,与具有逐渐形成的有限感觉场的增量行为相比,更有效地建模短程和长程依赖性以提高性能。这样做可以让模型带来更少的计算,同时更多地关注无人机功能。在本文中,为了充分利用该模块,我们将提出的AttC2f模块引入主干网,取代了C2f模块中的四个。
使用跨空间学习方法,EMA模块可以对远程依赖性进行建模,并嵌入来自无人机的精确位置信息。通过融合不同尺度的上下文信息,CNN可以为高级特征图产生更好的像素级注意力。与逐渐形成有限感觉场的增量行为相比,通过并行使用3 × 3和1 × 1卷积来更有效地模拟短程和长程依赖性,从而更好地利用中间特征之间的上下文信息,从而提高性能。这使得模型使用更少的计算,同时更多地关注无人机特性。在本文中,我们将提出的AttC2f模块引入骨干网,取代了四个C2f模块,以充分利用该模块。
3.1.3 引入双层路由注意机制
在传统的注意力机制中,每个查询都用所有键值对计算注意力权重,这在处理长序列时会导致计算复杂度的增加。稀疏注意力机制[25]通过限制每个查询仅用少量键值对计算注意力来减少计算开销。与传统的稀疏注意机制相反,双层路由注意(BRA)是一种动态的、查询感知的稀疏注意机制,它避开了静态方案,并避免在所有查询之间共享键值对的采样子集。相反,它在粗区域级别过滤掉最不相关的键值对,从而仅保留路由区域的一小部分。对于Transformers来说,多头注意力机制(MHSA)是常用的,但由于N个查询中的每一个都处理N个键值对,因此面临可伸缩性问题。BRA的核心思想是引入区域的概念,动态稀疏注意机制并不要求每个查询都关注所有的键值对。而是通过区域级别的查询和键,以及路由区域的索引来关注少量的键值对,以降低自注意力机制的计算复杂度。最后,通过执行这些值的注意力加权求和以及一些形状转换来获得最终输出,其工作流程图和结构如图5所示。
图5.图形数据:(a)双层路由注意步骤,和(b)双层路由注意模块。
BRA工作流程的步骤如下:
(1)区域细分和线性投影。使用2D特征图 X ∈ R H × W × C X∈ \mathbb{R}^{H×W×C} X∈RH×W×C作为输入,其中 X ∈ R S 2 × H W s 2 × C X∈ \mathbb{R}^{S^2× \frac{HW}{s^2} ×C} X∈RS2×s2HW×C被划分为区域 S × S S × S S×S的非重叠块。使用线性投影生成查询、键和值张量 Q , K , V ∈ R S 2 × H W s 2 × C Q, K, V∈ \mathbb{R}^{S^2× \frac{HW}{s^2} ×C} Q,K,V∈RS2×s2HW×C,如下所示:
确定参与关系(每个区域应关注的区域)。首先,将每个区域的平均值分别应用于 Q , K ∈ R S 2 Q, K∈ \mathbb{R}^{S^2} Q,K∈RS2,产生区域级查询和键 Q r Q^r Qr, K r K^r Kr。然后,在 Q r Q^r Qr和 K r K^r Kr的转置之间执行矩阵乘法,得到区域到区域关联图的邻接矩阵 A r ∈ R S 2 × S 2 A^r∈\mathbb{R}^{S^2×S^2} Ar∈RS2×S2,即,
A r A^r Ar中的条目用于测量两个区域之间的语义相关性。然后,通过仅保留每个区域的topk连接来简化关联图。具体地,逐行topk算子(topk索引)用于通过索引矩阵 I r ∈ R S 2 × k I^r ∈ \mathbb{R}^{S^2×k} Ir∈RS2×k来导出出路,即,
因此, I r I^r Ir的第 i i i行包含与第 i i i个区域最相关的topk个区域的索引。
(3)令牌对令牌的关注。利用路由索引矩阵 I r I^r Ir进行区域到区域路由,实现了细粒度的令牌到令牌注意。这是通过首先聚合键和值张量 K g K^g Kg、 V g V^g Vg,然后引入局部上下文增强项LCE(V)以将注意力集中在聚合的键-值对上来实现的。这确保了每个区域内的每个查询令牌关注由索引指示的k路由区域的联合内部内的所有键值对。
其中使用聚集算子基于路由索引矩阵聚集来自不同区域的键值张量,然后使用注意算子聚焦于聚集的键值对。
在本文中,我们介绍了颈部的BRA模块。BRA可以有效地捕获和处理数据中存在的直接远程关联,与传统的注意力机制相比,提供类似的建模效果。此外,与传统注意力机制相比,BRA具有更低的时间复杂度和更高的计算效率,在无人机检测场景中消耗更少的计算成本来提高检测性能。
4.实验和结果
在本节中,我们使用公开的反无人机数据集,通过一系列实验来验证本文提出的方法的有效性。首先介绍了使用的数据集,然后介绍了实验环境和训练策略,然后介绍了使用的评估度量,讨论了实验结果,然后将本文提出的方法与使用其他算法的实验结果进行了比较。
4.1 实验数据的呈现
为了验证本文提出的算法的有效性和适用性,使用了公开可用的数据集Anti-UAV[26]。该无人机数据集由大连科技大学收集,包含10,000幅无人机目标探测图像和20个跟踪视频数据集。对于本文,仅使用图像。该数据集包括在各种户外环境中拍摄的图像,如天空、乌云、丛林、摩天大楼、住宅楼、农田和操场。此外,数据集涵盖不同的照明条件(例如,白天、夜晚、黎明和黄昏)和各种天气条件(例如,晴天、多云和下雪)。目标图像包含更多超过35种无人机,无人机目标尺度分布在35像素× 20像素至110像素× 80像素之间,平均目标面积尺度约为0.013,最小目标面积尺度为 1.9 × 1 0 − 6 1.9 × 10^{−6} 1.9×10−6,最大目标占整个图像的0.7。所有数据图像都经过人工精准标注,包括目标类别和边界框坐标等。注释格式转换为YOLOv8模型训练所需的数据格式。应用原始数据集划分方法,训练集包括5200个图像、验证集2600个图像和测试集2200个图像。数据集的一些示例如图6所示。
图6.反UAV数据集的部分呈现包括:(a-c)具有建筑物背景的白天;(D-F)具有复杂建筑背景的白天;(g)有开放背景的晚会;(h,i)背景复杂的室外。
4.2 实验环境与训练策略
在本文中,使用的实验设备如下:服务器NVIDIA A40,具有45 GB的显存(NVIDIA,Santa Clara,CA,USA)。实验在Linux操作系统下进行,使用PyTorch框架版本2.0.1、Python版本3.9和CUDA 11.7。使用YOLOv8版本8.0.1,初始学习率设置为0.01,epoch设置为300,批量大小为18。为了减少设备的计算负担,我们将输入数据图像大小设置为640 × 640。由于性能和有限的设备资源之间的相对平衡,YOLOv8s被选为基线型号。在模型训练过程中,经过多次实验进行参数调试,最终选择最佳参数配置。一些重要参数设置如表1所示。在训练过程中,采用CIoU作为检测框损失函数,DFL(distribution focal loss)作为目标分类损失函数。
4.3 评价指标
使用的评估指标是精确度、召回率、平均精确度(mAP)、mAP50、mAP50-95、参数数量、检测速度(帧/毫秒)和模型大小。上述评价指标采用的参数如下:TP(true positive)表示模型正确预测了阳性类别的样本数。FP(假阳性)表示模型错误预测为阳性类别的阴性类别中的样本数量。FN(假阴性)表示模型错误预测为阴性的阳性类别中的样本数。TN(真阴性)表示模型正确预测了阴性类别中的样本数。每个类别的平均精度(AP)衡量模型在该类别中的性能。并集交集(IoU)通过计算模型的预测边界框和实际目标边界框之间的重叠程度来衡量模型的准确性。评价指标的含义及其公式如下:
精确度是指预测为阳性的所有结果中正确预测的比例。
召回是指所有结果中正确预测的比例,真实值为正值。
平均精度(mAP)是所有类别的AP的平均值。mAP结合了不同类别的检测精度和召回率。
4.4 消融实验
为了证明实验策略的有效性,使用公开可用的无人机数据集Anti-UAV进行了消融实验;实验结果如表2所示。将SPD-Conv、AttC2f和BRA这三个模块分别添加到原始YOLOv8s算法中,并获得了相应算法集的精度、召回率、mAP50和mAP50-95。
表2的实验结果表明,各增强策略的应用都不同程度地提高了检测性能。SPD可以减少特征图中细节信息的损失,提取出更多的小目标特征,从而使mAP50-95提高2.0%。AttC2f模块旨在取代骨干网中的四个C2f模块,其中引入EMA注意力机制,实现不同尺度空间信息的收集和信道描述的有效学习,精度提升1.6%。在网络的颈部,引入了BRA模块,在过滤掉最不相关的区域后,聚焦于特征图中的关键信息,使得mAP50-95提高了1.5%,在提高检测性能的同时效率很高。
对模型进行改进,更好地利用浅层特征,降低小目标无人机的泄漏检测率,提高复杂背景下的检测性能。并且每种增强策略都有不同程度的检测性能改善,进一步验证了每种增强方案的可行性。
表2.引入不同改进策略后的检测结果。(!表示已采用此改进策略)。
4.5 对比实验
为了证明改进模型的有效性,在保持其他训练条件不变的情况下,将改进模型与原模型进行对比实验,实验结果如表3所示。从实验结果可以看出,改进模型的mAP50-95值提高了2.7%,mAP50提高了2.2%,精确度提高了1.9%,召回率提高了1.3%。本文提出的SEB-YOLOv8s算法比原有的YOLOv8s算法具有更好的检测能力。
复杂背景中无人机小目标的检测尤其具有挑战性,因为当这些目标的颜色与环境融合时,它们非常容易被漏检,但本文提出的算法有效地缓解了这些问题,如图7中的推理结果所示,在(a)中,YOLOv8s算法在检测复杂背景中的无人机和无人机小目标时会经历误检和漏检,而在(b)中,本文提出的算法准确地检测到了复杂背景中的无人机,并可以减少无人机小目标的漏检。此外,如图8所示,本文提出的算法的(a)中的YOLOv8s推理结果和(b)表明,使用所提出的算法显著提高了无人机检测的置信度。
图7.YOLOv8s和所提出的算法SEB-YOLOvs在反无人机数据集上的推理结果。(a)YOLOv8s的推断结果;(b)本文提出的算法SEB-YOLOv8s的推理结果。
图8.原始模型的推理结果和本文提出的无人机目标检测方法。(a)YOLOv8s的推断结果;(b)本文提出的算法SEB-YOLOv8s的推理结果。
图9显示了我们提出的模型和YOLOv8s在训练过程中的一些重要评估指标的变化曲线。从图9中,我们可以看到,在45个时期之后,与YOLOv8s相比,我们提出的模型实现了更高的召回率、mAP50和mAP5095,表明这三个关键指标的性能更好。与原模型相比,本文提出的模型对无人机探测任务具有更好的适应性。
图9.(a)召回中SEB-YOLOv8s和YOLOv8s的训练曲线;(b)mAP50中SEBYOLOv8s和YOLOv8s的训练曲线;(c)mAP50-95中SEB-YOLOv8s和YOLOv8s的训练曲线。
为了彻底验证本文提出的无人机目标检测模型的性能,将本文提出的模型与YOLOv8n、YOLOv8s、YOLO8m、YOLO8l、YOLO8x进行对比实验。实验结果如表4所示。从实验结果可以看出,提出的模型精度和mAP50最高,分别为95.9%和90.5%,模型规模不到YOLOv8x的五分之一,而mAP50-95和召回率仅比YOLOv8x低0.5%和1.1%。与YOLOv8m相比,SEB-YOLOv8s的检测速度仅慢0.27 ms,而模型大小不到YOLOv8m的一半。本文提出的算法在平衡检测性能和模型规模方面是最优的。
表4.目标检测模型与所提出模型的比较结果。(表中粗体数据表示最佳结果)。
根据表5的实验结果,本文提出的模型与其他优秀的目标检测模型相比具有最佳的检测性能,并且本文提出的模型的模型大小在查准率、召回率和mAP50上分别提高了26.2%、11.9%和13.9%,具有比SSD模型小三倍以上的优势。与YOLOv5s相比,所提出的模型百分比在精度、召回率和mAP50方面分别高出1.6%、1.5%和2.4%。与YOLOv7tiny相比,虽然模型尺寸更大,但在检测性能上,召回率高出14.7%,精确度高出2.3%,mAP50高出12.6%。
表5.目标检测模型的比较结果。(表中粗体数据表示最佳结果)。
总之,与其他模型相比,本文提出的SEB-YOLOv8s模型具有更好的检测性能。该模型能较好地保留目标的浅层特征,这对于无人机小目标的检测尤为重要。此外,SEB-YOLOv8s更好地利用了特征图的通道信息,提供了更准确的目标位置信息。这使得SEB-YOLOv8s能够在复杂背景下的小目标检测和检测任务的对比实验中表现出相对于其他模型的显著优势。因此,我们的实验结果优于其他模型。
5.结论
在解决无人机目标检测的挑战中,我们面临着小目标占据图像帧的一小部分并且在复杂背景下难以检测的问题。我们提出了一种创新的方法,SEB-YOLOv8s。首先,引入SPDConv模块,由空间到深度(SPD)层和非跨越逐步卷积组成,可以高效提取无人机小目标的特征,从而降低泄漏检测率。第二,提出AttC2f模块替代C2f模块,增强像素级注意力,提供更好的深度特征图,显著提高复杂背景下小目标和无人机目标的检测。最后,我们将高效的动态稀疏注意机制BiFormer引入到骨干网中。这提高了模型对特征图中关键信息的关注,进一步优化了检测性能。这一系列创新增强旨在解决当前无人机目标检测的挑战,提高模型的适应性和性能。实验结果表明,改进后的YOLOv8s算法在精度和mAP50方面的无人机检测性能分别比原模型提高了1.9%和2.2%,mAP50-95比原模型提高了2.7%。改进算法在保持检测速度的同时有效降低了无人机的误检率,减少了无人机检测过程中的泄漏现象。虽然本文提出的算法在检测性能和模型规模之间取得了相对平衡,但改进后的模型规模仍然增大。在未来的研究中,我们将研究和开发更高效的轻量级模型,并通过增强和扩展数据来尝试收集和使用更多样化的无人机数据,从而进一步提高实时无人机检测的性能。
目前,无人机市场发展迅速,如何有效监控和反制正在违规飞行和使用的无人机是当今的难题。目前缺乏公共无人机数据集也给研究带来了挑战,后续研究将针对更多干扰环境中的无人机检测。由于只有少数几个公开的无人机数据集存在,我们自己收集的数据集数量有限,而且在许多不同场景下收集不同类型的无人机会消耗大量的物力和人力资源,这给无人机目标检测带来了很大的难度。