阅读：基于深度学习的红外可见光图像融合综述

文章链接：基于深度学习的红外可见光图像融合综述

一、问题引出

[1.1. 红外图像和可见光图像的区别](#1.1. 红外图像和可见光图像的区别)

[1.2. 红外可见光融合（IVIF）的目的](#1.2. 红外可见光融合（IVIF）的目的)

[1.3. 应用领域](#1.3. 应用领域)

[1.4. 技术方法](#1.4. 技术方法)

二、传统方法

[2.1. 空间域](#2.1. 空间域)

[2.2. 变换域](#2.2. 变换域)

[2.3. 小结](#2.3. 小结)

三、深度学习方法

[3.1. 基于自编码器](#3.1. 基于自编码器)

[3.1.1. 单一尺度方法](#3.1.1. 单一尺度方法)

[3.1.2. 多尺度方法](#3.1.2. 多尺度方法)

[3.1.3. 小结](#3.1.3. 小结)

[3.2. 基于卷积神经网络](#3.2. 基于卷积神经网络)

[3.2.1. 显著性方法](#3.2.1. 显著性方法)

[3.2.2. 结构优化方法](#3.2.2. 结构优化方法)

[3.2.3. 统一多任务框架方法](#3.2.3. 统一多任务框架方法)

[3.2.3. 全局依赖自适应方法](#3.2.3. 全局依赖自适应方法)

[3.2.4. 特殊任务融合方法](#3.2.4. 特殊任务融合方法)

[3.2.5. 小结](#3.2.5. 小结)

[3.3. 基于生成对抗网络](#3.3. 基于生成对抗网络)

[3.3.1. 基础对抗生成方法](#3.3.1. 基础对抗生成方法)

[3.3.2. 注意力与显著性增强对抗方法](#3.3.2. 注意力与显著性增强对抗方法)

[3.3.3. 多尺度与循环一致性对抗方法](#3.3.3. 多尺度与循环一致性对抗方法)

[3.3.4. 混合结构对抗方法](#3.3.4. 混合结构对抗方法)

[3.3.5. 小结](#3.3.5. 小结)

四、总结

一、问题引出

1.1. 红外图像和可见光图像的区别

可见光图像：

提供目标形态视觉细节信息（纹理）
容易受到极端天气等因素影响而丢失关键信息
光照强度低以及烟雾遮挡等情况下，图像所提供信息的可靠性不足

红外图像：

捕捉目标的热辐射信息
有效抵抗极端条件干扰
通常分辨率较低，对于纹理丰富的区域存在严重失真

1.2. 红外可见光融合（IVIF）的目的

红外图像对热源目标敏感，而可见光图像对纹理细节敏感，通过结合红外和可见光图像中的重要内容，生成信息更加丰富的融合图像。实现多模态图像信息的互补与增强。

1.3. 应用领域

目标检测、目标跟踪、军事侦察、无人驾驶等。

1.4. 技术方法

可分为传统方法 和深度学习方法。

二、传统方法

2.1. 空间域

原理：在图像的原始空间进行融合操作

2.2. 变换域

原理：通过将图像转换到变换域，在变换域中进行操作后转回到空间域。

分类：

基于多尺度变换的方法
基于稀疏表示的方法
基于子空间的方法
基于显著性的方法
基于变分模型的方法

2.3. 小结

传统图像融合方法表现良好，但其本身依赖先验知识，很难识别未知结果。
追求更优性能会增大方法复杂性。

三、深度学习方法

本文分析了具有代表性的三类：基于自编码器（auto-encoder ， AE ）的方法、基于卷积神经网络（convolutional neural network ， CNN）的方法以及基于生成对抗网络（generative adversarial network， GAN ）的方法。

3.1. 基于自编码器

原理：自编码器是一种无监督学习的神经网络，用于将输入数据压缩成一种低维表示（编码），再从中重建原始输入（解码）。这是一种类似有损压缩的方法，网络会提取输入内容的关键特征，然后基于关键特征对其进行重建。仅能识别类似的数据。

部分	功能	示例操作
编码器 (Encoder)	将输入压缩为低维特征	卷积层 / 全连接层
潜在表示 (Latent Space)	压缩后的"语义"表示	z 含有主要特征信息
解码器 (Decoder)	从 z 重建输入	反卷积 / 上采样
损失函数 (Loss)	衡量重建误差	MSE, BCE 等