『论文阅读|利用深度学习在热图像中实现无人机目标检测』

利用深度学习在热图像中实现无人机目标检测

  • 摘要
  • [1 引言](#1 引言)
    • [1.1 小物体检测](#1.1 小物体检测)
    • [1.2 物体检测中的模型组合](#1.2 物体检测中的模型组合)
    • [1.3 热图像处理](#1.3 热图像处理)
  • [2 提出的模型](#2 提出的模型)
    • [2.1 预测头数量](#2.1 预测头数量)
    • [2.2 骨干网络优化](#2.2 骨干网络优化)
    • [2.3 Transformer encoder 模块](#2.3 Transformer encoder 模块)
    • [2.4 使用滑动窗口和注意力进行卷积](#2.4 使用滑动窗口和注意力进行卷积)
    • [2.5 训练和运行过程](#2.5 训练和运行过程)
  • [3 结果](#3 结果)
    • [3.1 数据集](#3.1 数据集)
    • [3.2 评估指标和平台](#3.2 评估指标和平台)
    • [3.3 评估结果](#3.3 评估结果)
  • [4 结论](#4 结论)

论文题目: Object Detection in Thermal Images Using Deep Learning for Unmanned Aerial Vehicles

利用深度学习在热图像中实现无人机目标检测

摘要

这项研究提出了一种神经网络模型,能够识别无人驾驶飞行器采集的热图像中的微小物体。模型由三部分组成:骨干、颈部和预测头。骨干基于 YOLOv5 的结构开发,并在末端使用了一个transformer编码器。颈部包括一个 BI-FPN 块,结合使用滑动窗口和transformer,以增加输入预测头的信息量。预测头通过使用 Sigmoid 函数评估特征图来进行检测。带有注意力的transformers和滑动窗口的使用提高了识别准确率,同时将模型的参数数量和计算要求控制在嵌入式系统的合理范围内。在公共数据集 VEDAI 和收集的数据集上进行的实验表明,提出的模型比最先进的方法(如 ResNet、Faster RCNN、ComNet、ViT、YOLOv5、SMPNet 和 DPNetV3)具有更高的准确性。在嵌入式计算机 Jetson AGX 上进行的实验表明,提出的模型实现了实时计算速度和超过 90% 的稳定性。

关键词:深度学习、热图像、无人驾驶飞行器

1 引言

无人驾驶飞行器(Unmanned aerial vehicles, UAV)正被用于执行搜救、监视和军事行动等专门任务。为执行这些任务,无人飞行器配备了图像传感器和机载处理单元,用于收集数据并进行分析。分析通常需要对物体进行识别和分类,然后才能进行相关操作。在无人机的物体识别中,通常使用彩色图像作为输入数据。然而,在夜间或微光等许多环境条件下,由于物体与环境混为一体,使用彩色图像效果不佳。因此,使用热图像被认为是一种更切合实际的解决方案,其优点包括:只要物体散发的热量与环境温度不同,就能识别微小物体;还能在雾和弱光等恶劣条件下进行搜索。然而,主要的挑战在于如何处理低分辨率、不均匀的热背景以及热图像中的高噪声。为解决这些问题,已经提出了一些研究方案,具体如下。

1.1 小物体检测

探测小物体的方法已开发多年,最先进的方法有 Viola Jones检测器[1]、定向梯度直方图(Histogram of Oriented Gradients,HOG)检测器[2]、基于变形部件的模型(Deformable Part-based Model,DPM)[3]等。然而,机器学习技术,尤其是深度学习技术的发展,因其优于传统技术的效果和优势,使其成为一种趋势。在深度学习中,物体检测方法主要分为两类:单阶段检测法和两阶段检测法。单阶段方法无需使用预先生成的区域候选,即可对物体进行分类并生成边界框。因此,它的执行时间较快,代表方法有 Retical net、SSD [4]、Yolo [5]、CornerNet、FCOS [6]、FSAF [7]。两阶段法首先生成区域候选,然后对每个区域候选中的对象进行分类。因此,这种方法更准确,但速度较慢,其中的著名代表有 mask R-CNN [8]、Faster R-CNN [9]。深度学习的不断进步使得用于物体检测的 CNN 模型大受欢迎,并由此开发出了 VGG、Googlenet、DenseNet、Resnet、Efficientnet [10]、ViT [11]等新模型,它们具有更高质量的特征图,可以更准确地检测物体。

物体检测模型的进步还来自于改变计算深度大的单个层的计算方法[12]、模型集合策略[13]和基于区域的卷积神经网络[13]...改进还包括将识别层从全局特征图改为局部特征图[13]、使用新的检测核[12]以及组合特征图[14]。因此,模型的准确性逐渐提高。然而,使用这些模型有两个挑战:(1) 在嵌入式设备上部署这些模型相对复杂,(2) 模型的性能尚未真正稳定。

1.2 物体检测中的模型组合

深度学习是一种灵活且可扩展的方法,能够适应用于训练的数据量的不断增加。这种方法的一个缺点是,它取决于所使用的数据,当遇到全新的数据时,网络的权重会相应改变,导致方差增大。缓解这一问题的方法之一是训练多个模型,然后将它们的预测结果合并。

有三种常用的方法可以合并预测的边界框,包括非最大抑制(non-maximum suppression, NMS)[15]、Soft-NMS [16]和加权框融合(weighted boxes fusion, WBF)[17]。在 NMS 中,如果边界框重叠并超过一定的 "交集大于联合"(Intersection over Union,IoU)阈值,则认为它们属于一个对象。然后,NMS 只保留置信度最高的边界框,并删除其余的边界框。Soft-NMS通过使用一个函数改进NMS,根据 IoU 临界值降低相邻边界框的置信度。WBF 的操作方式与 NMS 不同,它是通过合并方框而不是移除方框来生成最终结果。对于无人机提供的彩色图像,WBF 能产生良好的结果。然而,对于热图像,当背景区域的热耗散与物体相似时,这种方法可能会将背景区域误检测为物体。因此,在作者的方法中,使用了 Soft-NMS 来组合预测的边界框。

1.3 热图像处理

与具有三个通道的彩色图像不同,热图像的信息仅相当于一幅灰度图像,表示捕捉区域对红外频率的响应。因此,大多数方法都使用两阶段方法来提取恶劣环境中的稀疏特征[18];学习最大化可见光和红外频率之间信息的特征[19];或检测无人机上的低分辨率物体[20]。然而,两阶段方法的使用限制了这些模型在计算能力有限的系统中的应用。

本文提出的 CNN 模型解决了从无人机拍摄的热图像中识别物体的两个问题。第一个问题是,在表示温度变化的物体(如船只或停放的车辆)时,热图像的信息有限。第二个问题是,当无人机拍摄物体时,相距很近的物体很可能会被识别为单个物体。为了解决这些问题,提出的方法主要是通过多维金字塔提取特征图,并使用注意力机制来丰富数据和扩展信息区域,如图 1 所示。使用注意力层而不是增加 CNN 的深度来降低计算成本。此外,使用 Bi-FPN 方法代替其他 FPN,以获得针对高价值区域的前馈计算过程。在最后一层,使用 Soft-NMS [16] 结合训练模型的预测边界框。

在这项工作中的贡献包括:

  • 分析小物体检测问题的特点,研究从无人机拍摄的彩色图像和热图像中识别物体的方法,从而提出一种新的网络模型。该模型可通过使用滑动窗口去除与周围区域相关性低的区域,并输出高识别潜力区域,从而识别小物体。该模型利用 ViT 和 YOLOv5(在彩色图像上表现良好的网络架构),并在其中加入注意力区块,以更好地识别物体。

  • 修改骨干架构,使其等效但参数更少,以便更好地用于无人机。此外,还将模型的权重压缩到 ONNX 和 TensorRT 中,以提高模型的执行速度。在训练过程中,还利用自我训练来强化物体分类能力,消除错误的识别特征。

  • 模型在高噪声的热图像上表现良好。该模型被设计成一个模块,可以部署在无人机等嵌入式系统上。该模型在公共数据集和自己的数据集上都达到了很高的准确率。

2 提出的模型

在本节中,将介绍利用无人机热图像进行物体检测的方法。提出的模型建立在 YOLOv5 的架构上,包括以下 3 个结构:骨干、颈部和头部,如图 1 所示。在骨干和transformers之后的两层中使用注意力层来扩展输入矩阵的特征,以克服与热图像信息量低有关的限制,尤其是图像中的小物体、人和车辆。使用注意层的作用是扩大计算区域,使物体特征清晰,便于识别。由于红外图像的信息含量较低,对周围的像素进行计算,以检测物体的边界框。

2.1 预测头数量

对于 YOLOv5 模型[5],在通过骨干层和颈部层之后,会产生三个特征矩阵,输入预测头。不过,这三个预测头只适用于图像中的物体占据了图像很大一部分的情况。在实施环境中,涉及从无人机上捕获的图像,如 VEDAI [21] 数据集中的图像,图像中的物体只占图像的一小部分。为了识别这些物体,使用了 4 个预测头,而不是 3 个。从低层特征层提取的额外预测头有助于减少识别边界框时的差异,并提高检测新物体的能力,而这些新物体可能在更高的特征层中被忽略。增加一个预测头后,计算参数的数量会增加,但物体检测性能会显著提高。

2.2 骨干网络优化

由于需要在无人机上使用,因此需要一种能够快速提取特征图的识别模型。因此,通过使用 GhostConv 来作为特征提取方法,以减少需要计算的参数数量。为了解决热信息少的问题,使用颈部网络的计算层来提取额外的信息。对于输入 X ∈ R c × h × w X ∈ R^{c×h×w} X∈Rc×h×w,其中 c 是输入维数,h 和 w 是输入矩阵的大小,特征层 n 的值计算公式为:
Y = X ∗ f + b Y=X*f+b Y=X∗f+b

其中, Y ∈ R h ′ × w ′ × n Y∈R^{h^′×w^′×n} Y∈Rh′×w′×n 是特征层 n 的结果,b 是偏置项, f ∈ R c × k × k × n f∈R^{c×k×k×n} f∈Rc×k×k×n 是卷积块的滤波器。GhostNet 方法通过对每个固有特征进行标准卷积和一系列线性运算产生结果。

在标准卷积中,根据公式 Y ′ = X ∗ f ′ Y^′ = X ∗f^′ Y′=X∗f′,从输入 X ∈ R c × h × w X∈R^{c×h×w} X∈Rc×h×w 和卷积块矩阵 f ′ ∈ R c × k × k × m f^′∈R^{c×k×k×m} f′∈Rc×k×k×m 得到 Y ∈ R h ′ × w ′ × m Y∈R^{h^′×w^′×m} Y∈Rh′×w′×m(m < n)。一系列线性运算通过变换矩阵 g(x) 将张量 Y ′ 转换为矩阵 Y ′′,计算公式为
y i j ′ ′ = g i j ⋅ y i j ′ i ∈ 1 , ... , m ; j ∈ 1 , ... , s y''{ij}=g{ij}\cdot y'_{ij}\quad i\in1,\ldots,m;j\in1,\ldots,s yij′′=gij⋅yij′i∈1,...,m;j∈1,...,s

y′ 的每个值都会产生一个 y′′ 的值,其中 m 和 s 分别是 y′ 和 y′′ 的大小。最后,y′和 y′′ 合并生成输出结果。与传统 CNN 网络相比,使用 g i j g_{ij} gij 的计算成本更低,参数更少。

2.3 Transformer encoder 模块

受视觉转换器(ViT)中应用的transformer方法的启发,在主干块末端应用了transformer块,以取代 YOLOv5 原始版本中的颈部网卷积层。该层的输入是前向卷积层的输出和通过 ASPP 模块分发的信息[22]。transformer块的输入表示为 I I R ∈ R I R c × h × w I_{IR}∈R^{c×h×w}{IR} IIR∈RIRc×h×w,由特征图 F I R ∈ R I R c × h × w F{IR}∈R^{c×h×w}{IR} FIR∈RIRc×h×w 给出。 I I R I{IR} IIR 进入注意力处理过程,其 3 个参数 Q、K、V 的计算公式为:
Q = I I R ⋅ W Q K = I I R ⋅ W K V = I I R ⋅ W V , \begin{aligned}Q&=I_{IR}\cdot W_Q\\K&=I_{IR}\cdot W_K\\V&=I_{IR}\cdot W_V,\end{aligned} QKV=IIR⋅WQ=IIR⋅WK=IIR⋅WV,

其中, W Q W_Q WQ、 W K W_K WK 和 W V W_V WV 是模型中训练过的矩阵。注意力模块的输出 Z 的计算公式为:
Z = A t t e n t i o n ( Q , K , V ) = S o f t m a x ( Q K T d k ) ⋅ V , Z=Attention(Q,K,V)=Softmax(\frac{QK^T}{\sqrt{d_k}})\cdot V, Z=Attention(Q,K,V)=Softmax(dk QKT)⋅V,

其中, d k d_k dk 是保持 Softmax 结果收敛性的参数。从 Z 开始,激活层 GELU 用于计算输出。使用 GELU 代替 ReLU 可以对数据进行回归,而不是丢弃参数为负的数据,从而减少方差。

2.4 使用滑动窗口和注意力进行卷积

在提出的模型中,将滑动窗口的使用与注意力机制相结合,而不是使用通常的 Transformer 方法来实现快速的物体检测。该模块也非常简单,可以集成到 CNN 系统中,而不会导致计算系统超出 YOLOv5 架构的处理量。该模块有两个处理过程,包括用滑动窗口分割输入矩阵和对得到的窗口进行 Attention 处理。该模块的输入是 Bi-FPN 的输出特征图。通过滑动窗口机制将大小为( h × w × c ) h × w × c) h×w×c)的特征图缩小为大小为 ( n × m h × m w × c ) (n × mh × mw × c) (n×mh×mw×c)的特征图,同时创建一个大小为 ( n × m h − m w × m h − m w × c ) (n × mh - mw × mh - mw × c) (n×mh−mw×mh−mw×c)的掩码矩阵。其中,h、w、c 分别为输入特征矩阵的宽度、高度和深度; m h mh mh、 m w mw mw 分别为滑动窗口的长度和宽度。然后在滑动窗口及其周围计算自注意力,以提取这些窗口上的特征。在这里,使用 G E L U GELU GELU 层来确保处理大量数据时的准确性。输出计算如下:
z ^ l = W A ( L N ( z l − 1 ) + z l − 1 z l = M L P ( L N ( z ^ l ) ) + z ^ l , \begin{aligned}\hat{z}^l&=WA(LN(z^{l-1})+z^{l-1}\\z^l&=MLP(LN(\hat{z}^l))+\hat{z}^l,\end{aligned} z^lzl=WA(LN(zl−1)+zl−1=MLP(LN(z^l))+z^l,

其中, z l z^l zl 和 z ^ l \hat{z}^l z^l 分别是模块 l l l 中窗口注意力(WA)和多层感知(MLP)模块的输出;WA 表示使用滑动窗口的多头自我注意力模块;LN 表示对 z 进行线性运算的线性模块。该模块的结果是由注意力层提取的特征信息增强的特征图。因此,该模块有助于确定模型在检测物体时应关注的区域。

2.5 训练和运行过程

对于大型模型而言,检测物体的过程可能会耗费大量时间。在训练过程中,调整输入图像的大小,尽量减少信息损失,输入图像的大小分别为原始图像的 0.67 和 0.85。还对图像进行旋转和翻转,以丰富训练数据。在实验中,使用原始图像大小 0.67 的输入尺寸,并保留热图像的灰度或彩色比例。使用层堆叠和扩大计算区域等技术来提高识别速度。还通过使用 ConvGhost 和 Bottleneck Ghost 与参数数量较少的模型相结合,以减少计算特征图的时间。

3 结果

为了评估所提出的模型,在名为 VEDAI 的公共数据集和从无人机上收集的数据集上进行了实验。还在两个平台(包括高性能服务器和嵌入式计算机)上与其他最先进的模型进行了比较。

3.1 数据集

自己采集的数据由名为 Mavic 2 Enterprise Advanced 的无人机收集,该无人机配备了如图 4 所示的摄像头。红外热像仪的分辨率为 640 × 512 px,速度为 30 fps,16 倍变焦,精度为 ±2 摄氏度。无人机还配备了一个分辨率为 4800 万像素的彩色摄像头。不过,这台相机仅用于参考目的。所收集的视频数据持续时间长达 11 小时,在不同的时间和地点进行记录。因此,它为作者提供了数百万张热图像,用于训练和测试。此外,还使用名为 VEDAI 的公共数据集,利用无人机在各种条件下(尤其是弱光条件下)采集的热图像。数据集中的图像都经过预处理和标记,以确保模型使用时的质量。在比较中,所有模型都使用相同的 800 × 800 图像尺寸。

3.2 评估指标和平台

在所有比较中,使用平均精度(mAP)指标来评估模型在两个 IoU 阈值(0.5 和 0.95)下的精度。用于训练模型的平台是配有 GPU A100 3.2G 40G 的服务器。使用的优化函数是学习率为 3.2 × 1 0 − 5 3.2 × 10^{-5} 3.2×10−5 的 Adam。使用 10 个初始epochs来稳定训练,并使用 150 个实际训练epochs,批量大小为 16。这个过程在自己的数据集和公共数据集上都进行了训练。

3.3 评估结果

将提出的模型与用于物体检测的常用模型进行了比较,包括 Faster R-CNN、ResNet、YOLO net、Vision Transformer (ViT)、E-net、ComNet [23]、SMPNet [24]、DPNetV3 [25]。结果见表一和表二。可以看出,提出的模型在 0.5 和 0.95 值时都比其他方法更准确。与使用等量参数的方法相比,提出的模型在两个数据集上都显示出更好的结果。具体来说,在 VEDAI 数据集上,提出的模型在 mAP50 上的表现比其他方法好 4.1% 到 7.01%,在自己的数据集上,提出的模型在 mAP95 上的表现比其他方法好 4.42% 到 9.83%。此外,提出的模型参数数量相对较少,这要归功于用注意力层和前馈线性层等计算效率高的层替换了多个 CNN 块。因此,与其他模型相比,提出的模型实现了更高的性能,并且能够部署在嵌入式系统上。

图 2 显示了 VEDAI 数据的一些结果,其中第一行代表热图像,第二行代表相应的彩色图像作为参考。可以看出,提出的模型在检测船只、飞机和汽车等常见物体时表现良好。这些图像也反映了从无人机数据中进行物体检测所面临的挑战,即当物体非常小的时候。图 3 显示了无人机在正常和具有挑战性的条件(如城市环境或弱光)下采集图像的结果。在这里,由于无人机配置的原因,热数据以红色比例表示,而不是灰度。还添加了第三行,以便近距离观察检测结果。可以看出,提出的模型可以识别物体,即使是那些体积小、热对比度低的物体。图 3d 显示了使用热图像比使用彩色图像的明显优势,在夜间也能检测到物体。

在另一项评估在无人机等嵌入式设备上部署模型的能力的实验中,通过保持模型质量的方法对模型进行了压缩。具体来说,使用迁移学习方法来缩小模型大小,同时保持其性能。实验使用的设备是一台名为 Jetson AGX 30W 的嵌入式计算机。将所有模型设置为在 Nvidia 设备的 GPU 线程上运行。表 III 显示了不同模型的实验结果,包括全模型、半模型、ONNX、TensorRT 和传输模型。可以看出,通过使用转移模型,提出的模型可以在嵌入式设备上部署,并且具有实时速度和高稳定性。因此,该模型可应用于无人机等实用系统。

4 结论

本文提出了一种新的神经网络模型,用于识别无人机采集的热图像上的物体。提出的模型采用了基于 YOLOv5 的改进骨干结构,并在颈部和预测头中使用了匹配分类器,从而提高了识别效率。特别是在预测头之前使用注意力块,大大提高了识别小物体的能力。在公共数据集和采集的数据集上的实验结果表明,提出的模型比最先进的方法表现更好。它的参数数量少,可以在嵌入式系统上实现实时计算。因此,该模型可部署在无人机等实际系统上,用于实际应用。

相关推荐
taWSw5OjU23 分钟前
从模型评估、梯度难题到科学初始化:一步步解析深度学习的训练问题
人工智能·深度学习
Ricardo-Yang38 分钟前
SCNP语义分割边缘logits策略
数据结构·人工智能·python·深度学习·算法
新缸中之脑1 小时前
微调BERT进行命名实体识别
人工智能·深度学习·bert
人机与认知实验室2 小时前
神经网络、数学、理性思维真能实现通用智能吗?
人工智能·深度学习·神经网络·机器学习
Gary jie3 小时前
OpenClaw4月更新的梦境记忆巩固系统
人工智能·深度学习·opencv·目标检测·机器学习·长短时记忆网络
大神的风范3 小时前
QT部署YOLO11实时检测
驱动开发·深度学习·qt·目标检测·计算机视觉
无人机长了一个脑袋4 小时前
无人机序列号
无人机
做cv的小昊4 小时前
结合代码读3DGS论文(12)——NeurIPS 2024 Spotlight 3DGS经典Backbone工作3DGS-MCMC论文及代码解读
论文阅读·计算机视觉·3d·图形渲染·游戏开发·计算机图形学·3dgs
清空mega5 小时前
动手学深度学习|批量归一化(Batch Normalization)超详细讲解:为什么它能让深层网络更容易训练?
网络·深度学习·batch
LSQ的测试日记5 小时前
深度学习_YOLO,卡尔曼滤波和
人工智能·深度学习·yolo