红外与可见光图像融合｜主流 SOTA 模型数据集选取及预处理汇总（Part4）

红外与可见光图像融合｜主流SOTA模型数据集选取及预处理汇总（Part3）

[1. Robust feature extraction for visible-NIR image registration through unsupervised dual training with adaptive knowledge transfer](#1. Robust feature extraction for visible-NIR image registration through unsupervised dual training with adaptive knowledge transfer)
- 摘要
[2. Progressive text-semantic-aware generative adversarial network for image fusion](#2. Progressive text-semantic-aware generative adversarial network for image fusion)
- 摘要
- 数据集
[3. Pixel intensity prior-aware balanced multi-modal image fusion](#3. Pixel intensity prior-aware balanced multi-modal image fusion)
- 摘要
- 数据集
[4. Learning to optimize unsupervised image fusion with learnable loss and fusion strategy](#4. Learning to optimize unsupervised image fusion with learnable loss and fusion strategy)
- 摘要
- 数据
[5.HSENet: Hierarchical semantic-enriched network for multi-modal image fusion](#5.HSENet: Hierarchical semantic-enriched network for multi-modal image fusion)
- 摘要
- 数据
[6. Rethinking normalization strategies and convolutional kernels for multimodal image fusion](#6. Rethinking normalization strategies and convolutional kernels for multimodal image fusion)
- 摘要
- 数据

在红外与可见光图像融合（IVIF）任务中，数据集的选取、划分方式以及预处理增强策略，直接决定模型的拟合效果、细节保留能力与跨场景泛化性能。目前主流IVIF算法普遍采用 XXXX，XXXX 的实验范式，能够更真实地验证模型在复杂未知场景下的实际应用能力。

本文系统梳理了等10种最新轻量化、高性能IVIF SOTA模型的数据集配置、预处理方案、训练参数及泛化测试策略，整理成可直接参考、对比的干货内容，为后续实验设计、模型复现与创新改进提供依据。

1. Robust feature extraction for visible-NIR image registration through unsupervised dual training with adaptive knowledge transfer

摘要

融合可见光和近红外（NIR）图像对于各种工程应用至关重要。可见光和近红外图像的精确对齐依赖于专门针对红外图像独特特性设计的局部特征。在这一领域，基于深度神经网络（DNN）的局部特征潜力仍 largely 未被充分探索。本研究旨在深入研究可见光与近红外图像对齐的特征提取方法。引入了一种创新的基于深度神经网络的特征提取技术，该技术采用简化的全卷积网络来获取密集特征和显著性评分。所提出的模型通过具有自适应知识迁移（DT-AKT）策略的双重训练进行无监督训练。训练过程中使用可见光图像，从而避免了对大量近红外图像的需求。与许多最先进的方法相比，该方法生成可灵活调整数量的关键点，并为可见光与近红外图像对齐提供更稳健的局部特征，特别是在局部特征的稳定性、可重复性和独特性方面。

局部特征；关键点检测；特征描述；可见光和红外图像；无监督学习

2. Progressive text-semantic-aware generative adversarial network for image fusion

摘要

红外与可见光图像融合（IVF）旨在合成既保留热特征又保留可见光纹理的综合表示。现有的IVF方法主要侧重于像素级特征组合，但在复杂场景下难以保持语义一致性。为了解决这一挑战，我们提出了一种用于红外与可见光图像融合的渐进式文本语义感知生成对抗网络（PTS-GAN）。具体来说，我们提出了一个语义感知生成器以保留跨模态语义的多尺度局部-全局特征。它将双注意力路由（DAR）模块与Transformer架构相结合。同时，我们提出了文本语义对齐（TSA）模块，将CLIP文本嵌入与多尺度视觉特征对齐。此外，我们构建了双重渐进判别器，通过分层对抗训练维持融合图像与源图像之间的语义一致性。全面实验表明，所提模型在客观和主观上均优于现有最先进的方法。代码可在 https://github.com/WenH-Song/PTS-GAN 获取。

数据集

数据集。为了验证所提出的 PTS-GAN 的性能，我们使用了包含复杂场景的三个数据集，即 LLVIP、MSRS 和 TNO 数据集。LLVIP 数据集中的大多数图像都是在低光照条件下拍摄的。MSRS 数据集中的图像存在不同程度的过曝和模糊。此外，TNO 数据集包含来自各种场景的图像。我们基于 LLVIP、MSRS 和 TNO 数据集构建了文本引导的 LLVIP、文本引导的 MSRS 和文本引导的 TNO 数据集。与配对的红外和可见光图像对应的文本提示是根据场景内容手动编写的。每条提示由突出物体及其空间环境的简明自然语言描述组成（例如，"两个人正在在人行道上行走，一辆车停在路边。"）。每对图像只创建一次描述，并对红外图像和可见光图像保持一致，以确保文本语义对应于共享场景。这种手动方法使提示可以专注于感兴趣的物体，同时避免冗余的背景细节，从而为融合过程提供精确的指导。为了防止场景重复，LLVIP 数据集在场景级别被严格划分为互不重叠的训练和测试子集。我们将数据集分为 2000 对图像用于训练，250 对图像用于测试。用于跨数据集评估时，MSRS 数据集中的 361 对和 TNO 数据集中的 21 对图像仅用于测试。这一设计确保了模型的泛化能力是在训练中未见过的场景上进行评估的。训练细节。所有实验均在 NVIDIA A100 GPU 上进行。参数使用 Adam 优化器进行优化。我们将学习率初始化为 0.0001。公式 (30) 中的超参数 α 设为 0.5。此外，交叉注意力的头数设置为 1。编码器和解码器阶段 1、2、3 中 Transformer 的头数分别设置为 1、2 和 4。评估细节。为了验证所提出方法的有效性，在图像融合任务上进行了全面实验。比较了 11 种最先进（SOTA）的方法，包括 TarDAL $24$ 、UMF-CMGR $25$ 、CMTFusion $17$ 、IRFS $18$ 、YDTR $20$ 、ITFuse $19$ 、ASFFuse $21$ 、CrossFuse $16$ 、SpTFuse $22$ 、LDFusion $5$ 和 TextFusion $3$ 。在比较中使用了定性和定量评估指标。（BY 翻译只能翻译 2500 字符以内，已选 2969 字符，仅翻译前 2500 字符）

摘要

多模态图像融合旨在通过整合异质来源的互补信息来增强场景解读。实现高质量的融合依赖于保持各模态的均衡贡献，以保留它们各自的信息内容。然而，不同模态之间语义分布和数据质量的差异常常导致融合不平衡，造成跨模态特征的非对称抑制以及低对比度但重要细节的遗漏，从而最终削弱场景理解。为了解决这一挑战，我们提出了一种面向平衡多模态图像融合的相关像素感知强度引导网络（RAIN），适用于通用多模态图像融合。RAIN通过建模像素强度与语义信息之间的内在联系，使其能够在不同条件下实现细粒度的语义级平衡，从固有不平衡的模态中动态推导出最佳融合策略。具体而言，我们引入了一个专门设计的损失函数，该函数利用先验感知的像素强度统计，通过同时考虑融合输出和语义预测，指导自适应的模态贡献。此外，我们提出了强度感知模态平衡单元（IMBU），用于缩小模态之间的质量差距并减轻语义损失。为了进一步优化融合质量和跨模态语义编码，RAIN还引入了空间-通道注意力（SCA）模块和模态交互与补充（MIC）机制。在多种基准测试中的实验结果表明，RAIN在融合质量和模态平衡方面均实现了优越表现。

数据集

在训练阶段，我们使用了 MSRS $34$ , $46$ 数据集作为训练集。MSRS 数据集包含了各种白天和夜间场景图像。具体来说，从该数据集中选择了 1083 张图像用于训练，同时预留了 80 对图像用于测试，每张图像的尺寸为 640 × 480。此外，MSRS 数据集还提供了用于训练语义分割网络的自监督图像。

这些比较是在 MSRS $34$ , $46$ 、M3FD $23$ 和 FMB $47$ 数据集上进行的，数据集的尺寸分别为 640 × 480、1024 × 768 和 800 × 600。这三种数据集包括两种典型场景：白天和夜晚。M3FD 和 FMB 在两种光照条件下都有大量的烟雾场景。

4. Learning to optimize unsupervised image fusion with learnable loss and fusion strategy

摘要

在无监督图像融合领域，在不依赖真实数据的情况下提升融合质量仍然具有挑战性。本文指出无监督方法中的一个主要挑战：训练与推理之间的不一致性，这源于自编码器的训练目标以及使用简单的、不可学习的特征融合策略。为了解决这一问题，我们提出了 L2OFusion，一种新颖的框架，该框架采用自适应融合模块和代理损失函数（SurFLoss），以在多个评估指标上有效优化融合过程。我们通过对代理损失引入多目标学习方法，并辅以包含通道交叉注意力和空间注意力模块的先进自编码器架构，来解决现有无监督方法的关键局限性。这一架构允许来自不同图像模态的特征进行细致的整合和增强。我们进一步通过两阶段训练过程优化融合任务，同时利用通用和专用融合数据集来调优模型，以提升融合质量。在主流数据集上的大量评估表明，L2OFusion 在各项质量指标上均优于现有最先进方法，标志着无监督图像融合技术取得了重要进展。实现代码可在 https://github.com/liyemei/L2OFusion 获取。

数据

数据集：L2OFusion 的验证在三个不同的数据集上进行：MSRS、TNO 和 RoadScene，以评估其性能。TNO 数据集包含涵盖各种军事场景的夜间图像。MSRS 和 RoadScene 数据集包括从汽车视角拍摄的街景，覆盖白天和夜间情况。MSRS 数据集由 1444 对图像组成，其中 1083 对用于训练，361 对用于测试。至于 TNO 和 RoadScene 数据集，则使用公开的测试集 $27$ 。这些数据集中的所有可见光和红外图像均已进行了配准。

Fusiondn: a unified densely connected network for image fusion

所提出的 L2OFusion 已与近年来九种主流图像融合方法进行了比较，包括基于 GAN 的方法（FusionGAN $28$ ）、记忆单元融合网络（MUFusion $2$ ）、全时融合网络（SFINet $29$ ）、深度图像分解（DIDFuse $30$ ）、端到端残差融合网络（RFN-Net $31$ ）、基于 Transformer 的方法（SpTFuse $32$ 和 AMLCA $33$ ）、基于表示学习的方法（LRRNet $34$ ）、基于级联边缘先验的方法（FSFusion $7$ ）。

所提出的自编码器在 MSRS 数据集上训练了100个周期，并且每个周期测试得到的融合图像和融合指标用于训练 SurFLoss。SurFLoss 训练的参数通过 Adam 优化器更新，权重衰减到0.001，初始学习率设为10^-5。此外，公式 (7) 中的 λ 设置为10。

整个网络在NVIDIA A100 GPU上使用PyTorch框架进行训练。

摘要

在本文中，我们提出了HSENet，一种分层语义增强网络，能够生成具有稳健全局语义一致性和出色局部细节表现的高质量融合图像。HSENet的核心创新在于通过语义聚合、分发和注入对语义信息进行分层增强。具体而言，网络首先通过多尺度特征聚合与重分布来平衡全局信息交换，同时动态桥接融合任务与分割任务。随后，引入了渐进式语义密集注入策略，利用密集连接先将全局语义注入高度一致的红外特征，再将语义-红外混合特征传播到可见光特征中。这一方法有效增强了语义表示，同时将高频信息损失降到最低。此外，HSENet包括两种类型的特征融合模块，以利用跨模态注意力进行更全面的特征融合，并将语义特征作为第三输入以进一步增强图像融合的语义表示。这些模块通过动态平衡全局语义一致性和精细的局部细节表现，实现了在复杂场景下的稳健且灵活的特征融合。我们的方法在视觉感知任务中表现出色，同时充分保留了源模态的纹理特征。图像融合和语义分割的比较实验表明，HSENet在视觉质量和语义保留方面具有优势。代码可在 https://github.com/Lxyklmyt/HSENet 获取。

数据

为了验证我们的融合性能，我们选择了三个广泛认可的基准数据集：MSRS $21$ 、FMB $34$ 和 M3FD $17$ 。我们在包含1083对样本的MSRS训练集上训练模型，并使用MSRS测试集的361对样本、FMB数据集的280对样本以及M3FD数据集的360对样本来评估性能。

在NVIDIA GeForce RTX 3090 GPU上进行的实验涉及将训练数据集预处理为随机的256 × 256补丁。我们的HSENet网络使用Adam优化器进行优化，训练2500个周期，学习率为1e-3，并利用多项式学习率衰减策略。值得注意的是，网络的整个数据处理流程在YCbCr色彩空间中运行，旨在最小化颜色细节的损失并增强图像色彩的表现力。所有对比算法均按照其原始论文实现。

6. Rethinking normalization strategies and convolutional kernels for multimodal image fusion

摘要

多模态图像融合（MMIF）整合来自不同模态的信息以获得综合图像，从而辅助下游任务。然而，现有研究侧重于互补信息融合和训练策略，忽视了归一化和卷积核等底层架构组件的关键作用。我们重新评估了用于端到端MMIF的UNet架构，发现广泛使用的批量归一化通过平滑关键的稀疏特征限制了性能。为解决这一问题，我们提出了实例归一化与群归一化的混合策略，以保持样本独立性并强化内在特征关联。关键的是，该策略有助于生成更丰富的特征图，使大卷积核能够充分利用其感受野，从而增强细节保留能力。此外，提出的多路径自适应融合模块能够动态校准来自不同尺度和感受野的特征，确保信息有效传递。我们的方法在MSRS、M3FD、TNO和Harvard数据集上实现了最先进的客观性能，生成视觉上更清晰的显著目标和病灶区域。值得注意的是，它比红外图像在MSRS分割mIoU上提升了8.1%。这一性能得益于归一化与卷积核的协同设计，从而保留关键的稀疏特征。代码可在 https://github.com/HeDan-11/LKC-FUNet 获取。

数据

数据集。我们从哈佛医学院网站上选择了三种医学影像组合用于MIF实验，包括磁共振成像(MRI)-计算机断层扫描(CT)、MRI-正电子发射断层扫描(PET)和MRI-单光子发射计算机断层扫描(SPECT)图像对。我们使用包含所有模态的50对图像进行训练，然后分别在50对MRI-CT、MRI-PET和MRI-SPECT图像上进行测试。所有图像已对齐，大小为256 × 256像素。

实验是在一台配备 Intel® Xeon® Silver 4314 CPU @ 2.40GHz 和四块 NVIDIA GeForce RTX 3090 GPU 的服务器上使用 PyTorch 框架进行的。训练期间，图像被随机裁剪成 64 × 64 的小块，批量大小为 32。我们使用 Adam 优化器训练网络 1000 个周期，初始学习率为 1e-4。

我们将融合结果与八种最先进的方法进行了比较：EMMA (2024) $8$ 、MMDRFuse (2024) $16$ 、MMAE (2024) $36$ 、MLFuse (2025) $23$ 、VDMUFusion (2025) $37$ 、DSAGAN (2021) $15$ 、FATFusion (2024) $7$ 和 DM-FNet (2025) $20$ 。值得注意的是，DSAGAN、FATFusion 和 DM-FNet 仅应用于 MIF。