红外与可见光图像融合｜主流 SOTA 模型数据集选取及预处理汇总（Part1）

红外与可见光图像融合｜主流SOTA模型数据集选取及预处理汇总（Part1）

[1. DCFusion: Difference correlation-driven fusion mechanism of infrared and visible images](#1. DCFusion: Difference correlation-driven fusion mechanism of infrared and visible images)
- [1.1 算法核心摘要](#1.1 算法核心摘要)
- [1.2 数据集选取与划分](#1.2 数据集选取与划分)
- [1.3 数据预处理与增强](#1.3 数据预处理与增强)
- [1.4 实验训练配置](#1.4 实验训练配置)
[2. SFDFuse: Spatial and frequency feature decomposition for visible and infrared image fusion](#2. SFDFuse: Spatial and frequency feature decomposition for visible and infrared image fusion)
- [2.1 算法核心摘要](#2.1 算法核心摘要)
- [2.2 数据集选取与划分](#2.2 数据集选取与划分)
- [2.3 数据预处理与增强](#2.3 数据预处理与增强)
- [2.4 实验训练配置](#2.4 实验训练配置)
[3. DS2D: Decoupling feature guidance with state-space diffusion for infrared--visible image fusion](#3. DS2D: Decoupling feature guidance with state-space diffusion for infrared–visible image fusion)
- [3.1 算法核心摘要](#3.1 算法核心摘要)
- [3.2 数据集选取与划分](#3.2 数据集选取与划分)
- [3.3 数据预处理与增强](#3.3 数据预处理与增强)
- [3.4 实验训练配置](#3.4 实验训练配置)
[4. PKDFusion: Prior knowledge driven dynamic fusion network for infrared and visible images](#4. PKDFusion: Prior knowledge driven dynamic fusion network for infrared and visible images)
- [4.1 算法核心摘要](#4.1 算法核心摘要)
- [4.2 数据集选取与划分](#4.2 数据集选取与划分)
- [4.3 实验训练配置](#4.3 实验训练配置)
[5. TOFusion: Text-guided and object-aware infrared and visible image fusion](#5. TOFusion: Text-guided and object-aware infrared and visible image fusion)
- [5.1 算法核心摘要](#5.1 算法核心摘要)
- [5.2 数据集选取与划分](#5.2 数据集选取与划分)
- [5.3 实验训练配置](#5.3 实验训练配置)
[6. DiffFuseNet: Infrared-visible image fusion via diffusion-guided feature alignment and feature consistency alignment](#6. DiffFuseNet: Infrared-visible image fusion via diffusion-guided feature alignment and feature consistency alignment)
- [6.1 算法核心摘要](#6.1 算法核心摘要)
- [6.2 数据集选取与划分](#6.2 数据集选取与划分)
- [6.3 实验训练配置](#6.3 实验训练配置)
[7. IASSF: Infrared-assisted single-stage framework for joint restoration and fusion of visible and infrared images under hazy conditions](#7. IASSF: Infrared-assisted single-stage framework for joint restoration and fusion of visible and infrared images under hazy conditions)
- [7.1 算法核心摘要](#7.1 算法核心摘要)
- [7.2 数据集选取与划分](#7.2 数据集选取与划分)
- [7.3 数据预处理与增强](#7.3 数据预处理与增强)
- [7.4 实验训练配置](#7.4 实验训练配置)
[8. DWSFusion: Dual weight supervision for lightweight infrared and visible image fusion](#8. DWSFusion: Dual weight supervision for lightweight infrared and visible image fusion)
- [8.1 算法核心摘要](#8.1 算法核心摘要)
- [8.2 数据集选取与划分](#8.2 数据集选取与划分)
- [8.3 数据预处理与增强](#8.3 数据预处理与增强)
- [8.4 实验训练配置](#8.4 实验训练配置)
[9. CUDiff: Consistency and uncertainty guided conditional diffusion for infrared and visible image fusion](#9. CUDiff: Consistency and uncertainty guided conditional diffusion for infrared and visible image fusion)
- [9.1 算法核心摘要](#9.1 算法核心摘要)
- [9.2 数据集选取与划分](#9.2 数据集选取与划分)
- [9.3 数据预处理与增强](#9.3 数据预处理与增强)
- [9.4 实验训练配置](#9.4 实验训练配置)
[10. 主流IVIF模型数据集与训练参数汇总](#10. 主流IVIF模型数据集与训练参数汇总)
[11. 总结](#11. 总结)

在红外与可见光图像融合（IVIF）任务中，数据集的选取、划分方式以及预处理增强策略，直接决定模型的拟合效果、细节保留能力与跨场景泛化性能。目前主流IVIF算法普遍采用 XXXX，XXXX 的实验范式，能够更真实地验证模型在复杂未知场景下的实际应用能力。

本文系统梳理了DCFusion、SFDFuse、DS2D、PKDFusion等10种最新轻量化、高性能IVIF SOTA模型的数据集配置、预处理方案、训练参数及泛化测试策略，整理成可直接参考、对比的干货内容，为后续实验设计、模型复现与创新改进提供依据。

1. DCFusion: Difference correlation-driven fusion mechanism of infrared and visible images

1.1 算法核心摘要

现有IVIF损失函数大多对图像显著目标区域与背景区域无差别约束，无法有效挖掘多模态图像的互补特征，限制了融合性能。为此，本文提出差异相关驱动融合机制DCFusion。

该算法构建双分支交互网络，通过逐元素相乘融合跨模态多尺度互补信息；设计两阶段显著目标掩码生成方法，自适应聚焦红外图像高对比度目标区域；同时构建异质图像，设计LSCD损失函数缩小融合图像与源图像的信息差异，提升模型可解释性。在TNO、RoadScene数据集上的实验证明，DCFusion在主观视觉效果与客观评价指标上均达到最优水平。

关键词：差分相关；红外与可见光图像融合；显著目标掩码；跨模态特征融合

1.2 数据集选取与划分

选用IVIF领域两大主流基准数据集：TNO、RoadScene。总计收集330对红外-可见光图像，按照270对训练集、60对测试集划分，其中测试集包含TNO、RoadScene数据集各30对图像。

1.3 数据预处理与增强

仅对训练集进行数据增强：通过随机裁剪生成16200张120×120尺寸的图像块，测试集不做任何裁剪与增强操作，保证测试结果的真实性。

1.4 实验训练配置

基于PyTorch 1.11.0、Python 3.10.10实现，单张NVIDIA GTX 3090 GPU训练。采用Adam优化器，初始学习率0.001，β1=0.9、β2=0.999；训练轮数10epoch，批量大小64。损失函数初始权重α=0.1、β=0.1、γ=0.1，最终优化后权重为α=0.1、β=0.01、γ=0.5。

2. SFDFuse: Spatial and frequency feature decomposition for visible and infrared image fusion

2.1 算法核心摘要

针对现有IVIF算法无法自适应协调空间域、频率域特征，存在结构保留、细节恢复与推理效率难以兼顾的问题，本文提出轻量化双域协作融合框架SFDFuse。

算法通过空间域强度-结构交互模块实现多模态特征精准对齐，依托频率域可学习分离与自适应增强模块提取高频细节特征，结合双域融合模块动态融合全局结构与局部纹理。该模型仅0.03M参数，CPU处理单张640×480图像仅需0.11秒，在极致轻量化的同时，MI、Qabf指标较主流基线分别提升49.1%、27.2%，兼顾融合精度与实时性。

关键词：图像融合；空间-频率域协同；轻量化网络；实时融合；多尺度特征分解

2.2 数据集选取与划分

采用单数据集训练、多数据集零样本泛化测试策略：以MSRS数据集为训练集（1083对图像），测试集包含MSRS（361对）、RoadScene（50对）、TNO（25对），同时拓展M3FD、LLVIP数据集完成泛化验证，全程不对测试数据集微调，贴合真实场景部署需求。

2.3 数据预处理与增强

所有图像归一化至 $0,1$ 区间并转换为float32格式；训练集图像随机裁剪为128×128图像块，依托U2Net生成显著性掩码，精准保留红外目标特征；训练前对数据集进行随机打乱处理，batch size设置为8。

2.4 实验训练配置

基于PyTorch框架实现，四块A100 GPU并行训练，采用两阶段训练策略，总计120epoch（阶段1：40epoch，阶段2：80epoch），Adam优化器。阶段1仅训练频率分离模块，阶段2冻结基础模块，全局优化双域交互特征。通过网格搜索确定损失函数各权重参数，重点强化图像边缘细节与目标背景对比度。

3. DS2D: Decoupling feature guidance with state-space diffusion for infrared--visible image fusion

3.1 算法核心摘要

现有基于扩散的IVIF算法存在扩散时间步冗余计算、高分辨率特征长程建模能力弱、推理速度慢等问题。本文提出DS2D扩散融合架构，通过特征提取与扩散主干解耦、特征缓存机制，消除冗余计算，推理速度较最优基线提升27.2%。

设计双特征编码器强化浅层特征长程依赖，解决内存瓶颈；构建含人工主观评估的增强融合数据集，搭配颜色感知损失抑制融合图像色彩失真。在多基准数据集及目标检测、语义分割下游任务中均实现优异性能。

关键词：图像融合；扩散模型；状态空间模型；特征解耦；下游视觉任务

3.2 数据集选取与划分

沿用MSRS数据集官方划分方式：1083对图像用于训练，361对图像用于测试。泛化测试数据集包含MSRS、M3FD、LLVIP、FMB，其中LLVIP无官方划分，从各典型场景随机选取100张图像测试，所有泛化数据集均零样本测试、无需微调。

3.3 数据预处理与增强

训练图像随机裁剪为160×160尺寸，通过随机翻转实现数据增强，像素值归一化至 $-1,1$ 区间，批量大小16。

3.4 实验训练配置

单张NVIDIA RTX 3090 GPU训练，AdamW优化器，训练900epoch，初始学习率1e-5，β1=0.9、β2=0.999。扩散总时间步T=1000，噪声调度区间 $8.5e-4,1.2e-2$ ，推理仅需10个时间步即可生成结果，大幅提升推理效率。

4. PKDFusion: Prior knowledge driven dynamic fusion network for infrared and visible images

4.1 算法核心摘要

针对现有IVIF算法跨模态长程交互建模不足、热目标显著性弱化、结构保真度差等问题，提出先验知识驱动的动态融合网络PKDFusion。

设计带门控记忆的动态融合单元自适应调节模态权重，通过多感知注意力机制捕获全局跨模态依赖，构建多模态特征耦合函数实现语义锚点对齐与模态内结构保真。在六个基准数据集上性能超越14种主流SOTA算法，可有效支撑语义分割、目标检测等下游任务。

关键词：图像融合；跨模态特征；动态融合；先验知识引导

4.2 数据集选取与划分

采用六大通用IVIF基准数据集完成训练与泛化测试：MSRS（1083/361）、FMB（1220/280）、LLVIP（12025/300）、M3FD（3900/300）、OpIVF（26428/40）、RoadScene（221对测试集）。

4.3 实验训练配置

NVIDIA RTX 5090 GPU训练，总计300epoch，批量大小36，初始学习率1e-4，配置超参数α=0.7、β=0.8、τ=0.1、ɛ=1e-8、λ1=10、λ2=6。

5. TOFusion: Text-guided and object-aware infrared and visible image fusion

5.1 算法核心摘要

现有IVIF算法多采用固定静态融合策略，存在融合同质化、红外干扰冗余、场景适配性差等问题。本文提出文本引导、目标感知的TOFusion网络，依托视觉-语言模型实现融合焦点可控调节，通过双路径动态优化策略筛选互补特征，自适应抑制无效红外背景、突出目标区域，大幅提升融合图像在目标检测、场景测量任务中的实用性。

关键词：图像融合；视觉-语言模型；目标感知；动态优化；多模态交互

5.2 数据集选取与划分

选用MFNet、FMB、LLVIP、M3FD四大数据集，涵盖多场景、多视角数据，其中LLVIP、M3FD重点用于行人检测下游任务验证。选取10种主流SOTA算法作为对比基线，涵盖通用融合与目标感知融合两类方法。

5.3 实验训练配置

双块NVIDIA A600 48GB GPU、Intel i9-14900K处理器训练，Adam优化器搭配余弦退火学习率策略，初始学习率4e-4，终止学习率4e-6，总计1000epoch。受显存限制，各数据集批量大小差异化设置：MFNet=3、FMB=2、M3FD=2、LLVIP=1，核心超参数α1=1.3、α2=0.8、α3=1.2。

6. DiffFuseNet: Infrared-visible image fusion via diffusion-guided feature alignment and feature consistency alignment

6.1 算法核心摘要

针对跨模态差异导致的融合特征失衡、细节模糊、热显著性不足等问题，提出DiffFuseNet融合算法。设计双重扩散特征增强模块提升跨模态鲁棒性，通过显式解耦与频率分解模块拆分共享特征、模态专属特征，结合Haar小波与可逆神经网络实现频率感知融合，搭配两阶段训练策略实现结构、细节、热特征的平衡融合。

关键词：图像融合；扩散模型；特征一致性对齐；频率分解；显式特征解耦

6.2 数据集选取与划分

采用MSRS数据集，总计1444对图像，按3:1比例划分为训练集与测试集。

6.3 实验训练配置

单张RTX 4090 GPU训练，Adam优化器，初始学习率1e-4，StepLR学习率调度（每20epoch学习率减半，下限1e-6）。两阶段训练总计120epoch（前40epoch阶段I、后80epoch阶段II），批量大小8，添加梯度裁剪（最大范数0.01）保证训练稳定，分阶段差异化配置各损失函数权重。

7. IASSF: Infrared-assisted single-stage framework for joint restoration and fusion of visible and infrared images under hazy conditions

7.1 算法核心摘要

现有IVIF算法忽略雾霾场景下红外图像对可见光图像的修复辅助作用，去雾与融合分步优化导致模型冗余、精度受损。本文提出单阶段联合修复融合框架IASSF，通过提示生成机制缓解模态特征不兼容问题，依托红外辅助特征恢复机制适配雾霾密度，实现去雾、融合协同优化。相较于两阶段方案，模型更轻量化，适配实际场景部署。

关键词：红外可见光融合；图像去雾；联合修复；单阶段框架；模态适配

7.2 数据集选取与划分

基础训练集采用MSRS数据集1083对图像，测试集为MSRS 361对图像；泛化测试选用M3FD（100对）、RoadScene（50对）数据集。为模拟雾霾场景，通过大气散射模型对可见光图像批量加雾，构建仿真雾霾融合数据集。

7.3 数据预处理与增强

训练图像随机裁剪为256×256尺寸，搭配水平、垂直翻转实现数据增强，端到端联合优化修复与融合损失。

7.4 实验训练配置

单张24GB NVIDIA RTX 4090 GPU训练，AdamW优化器，初始学习率2e-4，余弦退火降至2e-6，总计300epoch，批量大小6。

8. DWSFusion: Dual weight supervision for lightweight infrared and visible image fusion

8.1 算法核心摘要

针对现有融合模型参数量大、冗余信息干扰融合效果的问题，提出轻量化DWSFusion算法。设计频率自适应注意力权重估计模块捕捉模态专属特征，通过跨感知策略强化模态交互，创新特征级双权重监督闭环机制，抑制无效冗余特征。搭配双判别器与多尺度结构相似性损失，保障融合图像结构保真与纹理真实，实现性能与模型效率的最优平衡。

关键词：图像融合；轻量化网络；双权重监督；频率自适应；跨模态感知

8.2 数据集选取与划分

基于MSRS数据集训练，在TNO、RoadScene、MSRS、M3FD四大基准数据集上完成跨尺度泛化测试，对比13种主流SOTA融合算法。

8.3 数据预处理与增强

训练图像统一裁剪为240×320图像块，适配多分辨率测试场景，验证模型尺度鲁棒性。

8.4 实验训练配置

RTX 4090D GPU、AMD EPYC 9754 CPU训练，Ubuntu20.04、Python3.8、CUDA11.3环境。总计100epoch，批量大小64，生成器Adam优化（学习率1e-4），判别器RMSprop优化，核心超参数β=10、γ=0.1。

9. CUDiff: Consistency and uncertainty guided conditional diffusion for infrared and visible image fusion

9.1 算法核心摘要

现有IVIF算法对复杂模糊场景特征学习能力不足，本文提出CUDiff条件扩散融合框架，将融合任务重构为模态条件生成任务。通过内容一致性约束保留源图像结构完整性，依托自适应不确定性机制优化模糊区域特征，有效提升复杂场景融合质量，在图像融合与目标检测任务中均优于12种主流SOTA算法。

关键词：条件扩散模型；内容一致性；不确定性驱动；红外可见光融合

9.2 数据集选取与划分

MSRS数据集（1083对训练、361对测试），额外选取TNO 40张典型图像、LLVIP 300张代表性图像完成跨场景泛化测试。

9.3 数据预处理与增强

训练阶段随机裁剪160×160图像块，适配模型输入尺寸，满足扩散模型训练需求。

9.4 实验训练配置

基于PyTorch框架实现，采用余弦βt调度策略，扩散总步数T=2000，β值从1e-6线性调度至1e-2。融合模块采用Adam优化器，初始学习率1e-5，批量大小24，总计训练300epoch，损失函数超参数λ=10。

10. 主流IVIF模型数据集与训练参数汇总

为方便快速对比、复现实验，本文汇总了上述所有SOTA模型的数据集划分、泛化测试配置、预处理方式及训练轮次核心信息，统一整理为对照表，清晰呈现当前红外与可见光图像融合领域主流实验范式。

模型算法	训练数据集划分	泛化测试数据集	数据集预处理与增强方式	训练Epoch
DCFusion	TNO+RoadScene：270对训练、60对测试	TNO（30对）、RoadScene（30对）	仅训练集随机裁剪，生成16200张120×120图像块，测试集无处理	10
SFDFuse	MSRS：1083对训练	MSRS（361对）、RoadScene（50对）、TNO（25对）、M3FD（300对）、LLVIP（3463对）	训练图裁剪为128×128，预处理前随机打乱，生成显著性掩码，batch=8	120（40+80两阶段）
DS2D	MSRS：1083对训练、361对测试	M3FD、LLVIP（随机100张）、FMB	随机裁剪160×160，随机翻转增强；像素归一化 $-1,1$ ，batch=16	900
PKDFusion	MSRS(1083/361)、FMB(1220/280)、LLVIP(12025/300)、M3FD(3900/300)、OpIVF(26428/40)	RoadScene（221对）	无特殊预处理与增强说明	300
TOFusion	MFNet、FMB、LLVIP、M3FD	无额外泛化数据集	无特殊预处理与增强说明，按数据集适配差异化批量大小	1000
DiffFuseNet	MSRS：1444对（3:1划分训练/测试）	无额外泛化数据集	图像常规预处理，搭配梯度裁剪保障训练稳定	120（两阶段）
IASSF	MSRS：1083对训练、361对测试	M3FD（100对）、RoadScene（50对）	训练图随机裁剪256×256，水平+垂直翻转，可见光图像加雾仿真雾霾场景	300
DWSFusion	MSRS完整数据集	TNO、RoadScene、MSRS、M3FD	图像统一裁剪为240×320，适配多尺度测试	100
CUDiff	MSRS：1083对训练、361对测试	TNO（40张）、LLVIP（300张）	训练图像随机裁剪160×160图像块	300

11. 总结

纵观当前红外与可见光图像融合主流研究，单源数据集训练、多源零样本泛化测试已成为行业通用实验范式。绝大多数SOTA模型均以MSRS数据集为核心训练集，依托TNO、RoadScene、M3FD、LLVIP等经典数据集完成跨场景、跨分布泛化性能验证，能够有效模拟模型在真实复杂场景下的落地能力。

在预处理策略上，随机裁剪、图像翻转、像素归一化为基础通用手段，部分轻量化模型、特殊场景模型（如雾霾场景融合IASSF）会针对性设计尺寸裁剪、场景仿真、显著性掩码生成等定制化增强策略。训练策略方面，两阶段训练、余弦退火学习率、差异化损失权重配置被广泛应用，扩散类模型普遍具备训练轮次多、超参数精细的特点，轻量化模型则兼顾训练效率与推理性能。

后面继续分析一些论文使用的数据集及预处理方式。