基于深度学习的红外小目标检测算法综述

1. 红外成像的原理

自然界中温度高于绝对零度的物体，总是在不断的发射红外辐射。通过红外热成像仪器可以形成与景物温度分布相对应的红外热图像。它能够再现景物各部分温度与辐射发射率的差异，因而可以显示出物体的特征。

红外成像技术穿透性强，工作距离远，受天气影响较小，抗外界干扰能力强。

2. 红外小目标检测

目前对于红外小目标的检测主要可分为以下两类算法：基于传统方法的红外小目标检测算法与基于深度学习的红外小目标检测算法。由于受外界因素影响，在众多应用场景下，待检测的小红外目标占整幅红外图像的面积非常小，一般不超过 100个像素。同时，红外小目标缺少相对明显的颜色、形状、纹理等信息，且边界模糊，容易被背景干扰和淹没。再者，由于高于绝对零度的物体都可以产生红外辐射，检测算法的虚警率（误报的概率）会大幅度提升。

2.1 传统红外小目标检测算法

2.1.1 单帧型检测算法

单帧型检测算法的思路主要有以下三种：增加背景与相关目标间的对比度，从而实现直接检测；抑制背景，提高相关目标可辨识度；将被检测目标与背景分离，从而实现检测。

单帧型检测算法的优点在于计算相对简单、复杂度较低、实时性较好等，但其更适用于简单场景下的检测，而对于复杂多变的现实场景则略显拙劣。

2.1.2 多帧型检测算法

多帧型检测算法是指利用时域、空域信息检测目标，并预测目标在序列图中的运动轨迹。按照目标特性处理顺序的不同，该类算法主要分为两类，跟踪前检测（DBT）算法与检测前跟踪（TBD）算法。

BDT算法通常先利用单帧检测算法得到每帧中若干可能的目标，再根据目标运动轨迹的连续性，排除序列图中的不可能目标，进而得到真实目标的运动轨迹。

预测下一帧的目标位置再与实际位置进行校验，最终提取到目标轨迹。该类算法容易实现，且可以跟踪目标运动轨迹，应用性强，但其性能受应用的单帧型算法的性能影响较大，若单帧型算法性能不佳，则DBT算法的最终性能也很难符合预期。

TBD算法中多指利用灰度波动信息，直接对多帧序列图中的目标进行提取。一维处理法是TBD算法研究思路之一，即单独关注某个像素点在连续多帧间的灰度信息，利用目标像素点与其他像素点在时域中的波动信息差异，对目标像素点与其他像素点进行区分。逐个对像素点的灰度值在时域上采用时域内积，以确定小目标位置；还有一种方法是停滞点连线，将其作为基准来计算每一个像素点的灰度与基准之间的差值来确定目标位置。

这类算法性能相对较好，可以同时确定目标位置与运动轨迹，但其需要综合考虑前后多帧图才可完成对当前帧的检测，使得实时性相对较差。

2.2 基于深度学习的红外小目标检测算法

基于深度学习的目标检测算法是通过训练神经网络并根据其学习到的目标特征信息，判断某物颜色、纹理等特征是否与目标特征吻合，进而实现对目标的检测。

2.2.1 评估指标

变量名	含义
TP（True Positive）	预测为正且实际为正的样本数（检测到的真实目标）
FP（False Positive）	预测为正但实际为负的样本数（错误检测出的目标）
FN（False Negative）	预测为负但实际为正的样本数（漏检的目标）
TN（True Negative）	预测为负且实际为负的样本数（正确排除非目标）

评估指标	英文简称	含义	计算
交并比	IoU	预测框A与真实框B的交叠率，是二者交集与并集之比，反映了两框间的相关度	$I o U = A r e a ( A ∩ B ) / A r e a ( A ∪ B ) IoU = Area(A ∩ B) / Area(A ∪ B)$ IoU=Area(A∩B)/Area(A∪B)
准确率	Accuracy	预测正确的样本数占样本总数的比例	$A c c u r a c y = ( T P + T N ) / ( T P + F P + F N + T N ) Accuracy = (TP + TN) / (TP + FP + FN + TN)$ Accuracy=(TP+TN)/(TP+FP+FN+TN)
精确率	Precision	预测正确的正样本数占预测为正样本总数的比例	$P r e c i s i o n = T P / ( T P + F P ) Precision = TP / (TP + FP)$ Precision=TP/(TP+FP)
召回率	Recall	预测正确的正样本数占实际正样本总数的比例	$R e c a l l = T P / ( T P + F N ) Recall = TP / (TP + FN)$ Recall=TP/(TP+FN)
平均精确率	AP	不同Recall下检测的平均正确性，是评估学得的模型在单个类别上的好坏的标准	$A P = ∫ 0 1 P r e c i s i o n ( R ) d R AP = ∫₀¹ Precision(R) dR$ AP=∫01Precision(R)dR（常用插值近似）
平均精确率均值	mAP	所有类别的AP的均值，是极为重要的评估指标	$m A P = Σ A P / N mAP = ΣAP / N$ mAP=ΣAP/N（N为类别数）
检测速度	FPS	每秒可以处理的图像帧数，代表了模型的计算性能，体现着模型的实时性	$F P S = 1 / 推理时间 FPS = 1 / 推理时间$ FPS=1/推理时间
浮点运算数	FLOPs	计算量，用以衡量模型的复杂度。其值越小，越适合嵌入式部署	与模型结构相关，通常借助工具计算

2.2.2 检测算法

-	One-stage算法	Tow-stage算法
主要思想	基于回归的范式，不生成候选框而直接对物体进行分类和候选框预测，简化了网络结构，准确度虽较低但实时性较好	先通过区域选择方法生成候选框，再与卷积神经网络CNN结合，对候选框的位置进行分类与回归，准确率高但实时性较差
代表算法	YOLO系列、SSD系列、Anchor-Free系列	R-CNN 、MaskR-CNN 、Faster-RCNN
主要区别	不生成候选框	生成候选框
局限性	检测精度较低，尤其是对于较小物体的检测水平有限	实时性较差
适用场景	实时目标检测	高精度目标检测

2.2.3 重点关注的问题难点

现有的高质量红外小目标数据集较少，训练样本稀缺。
对于红外小目标的特征提取困难较大，极易受到环境因素干扰，且随着网络层数的增加，语义特征可能会消失，导致检测效果差。在深度学习中，网络越深，提取到的特征越抽象（语义层次越高）。一个神经网络是由很多层（Layer）组成的，比如卷积层、池化层、全连接层等。浅层提取的是简单、细节化的特征，比如：边缘线、颜色块、局部纹理。就像人第一眼看到一个物体的"线条"或者"颜色"；中层可能会提取出局部结构，比如：弯曲的猫耳朵、圆形的眼睛轮廓；深层（靠近输出）则提取的是抽象、整体的语义信息，比如： "这是一只猫" 或者 "这是猫脸的一部分"
由于小目标在红外图中所占面积小，若直接利用现有主流深度学习模型，设定的锚框锚框是目标检测模型用来在图像中定位目标的一种"参考框"，模型会基于它来预测目标的位置和大小尺寸不贴近目标尺寸，则锚框偏移一个像素点也会对检测效果影响非常大。
要求其具有更快的检测速度，更小的内存占用，以便部署在硬件环境受限的条件下。需要考虑是否有必要使用模型压缩方法以轻量化网络模型。

2.2.4 算法改进介绍

2.2.4.1 One-stage算法改进

YOLOV3模型的特征融合结构FPN，改进后的网络可以提高重要信息权重，抑制次要信息。结合了通道注意力和位置信息注意力的坐标注意力结构，进一步提升了模型的准确率。
基于RefineDet网络设计的IoU预测模块，使得网络更好的感知小目标位置，缓解红外小目标特征不明显，且提取困难等问题带来的不良影响。
目标搬移算法间接增加小目标数量，缓解小目标容易发生漏检的问题。
考虑到红外图像数据少的问题，利用特征迁移学习，将大量仿真图像和少量真实图像作为训练样本，解决跨域适应性问题，
利用GhostNet模块做模型剪枝，改进YOLOV5s，使得模型参数量大大减少更加轻量化。

2.2.4.2 Tow-stage算法改进

在R-CNN改进的模型CascadeR-CNN的基础上，引入注意力机制并将其分为全局通道注意力、局部通道注意力和空间注意力机制。同时，设置小锚框以匹配小目标尺寸问题，从而获得更准确的检测结果。
进行图像预处理时，将直方图均衡化与Retinex图像增强算法相结合以进行图像增强，同时，改进 FasterR-CNN网络的损失函数。
基于差异统计方法，在top-hat上加入感兴趣块与周围区域的差异信息，提出适用于小目标的增强方法，有效地增强图像对比度，抑制背景信息。
用生成对抗网络GAN来生成数据该网络由两个部分构成：生成器 Generator与判别器 Discrimination。生成器负责通过机器生成"真实"数据以通过判别器的检测，而判别器则负责判断数据是否是真实数据，以过滤掉生成器伪造的"真实"数据。使得生成器与判别器实现相互间的对抗博弈，从而让生成器生成的数据越来越"真实"，判别器的鉴定水平也随之提高。由于GAN中生成器的更新信息来自判别器，而不是来自数据样本，因而，只用到了反向传播，过程较为简单。GAN网络生成的样本更加清晰、真实，若形成规模化的数据库，极有可能会提升目标检测算法的检测效果。

2.2.5 常用模型压缩方法对比介绍

	原理	优势	局限性
知识蒸馏	利用较小的模型模拟较大模型的输出，从而让小模型具有大模型的泛化能力	提高小模型性能的同时，可以显著降低计算成本	多用于具有 softmax损失函数的分类任务，但在应用到其他任务时的泛化性不好
参数量化	典型的32位浮点网络参数用较低位宽表示	参数存储空间与内存占用空间均实现了显著减少；加快运算速度，降低设备能耗	位宽的减少造成推理精度的下降；量化到特殊位宽时，灵活性下降
网络剪枝	通过删除对性能不敏感的冗余，不重要的连接来减少参数的数量	减小整个模型的大小，节省计算时间和能耗	实现难度大；目前的实现方法会导致较大的模型精度损失