红外与可见光图像融合|主流SOTA模型数据集选取及预处理汇总(Part1)
- [1. DCFusion: Difference correlation-driven fusion mechanism of infrared and visible images](#1. DCFusion: Difference correlation-driven fusion mechanism of infrared and visible images)
-
- [1.1 算法核心摘要](#1.1 算法核心摘要)
- [1.2 数据集选取与划分](#1.2 数据集选取与划分)
- [1.3 数据预处理与增强](#1.3 数据预处理与增强)
- [1.4 实验训练配置](#1.4 实验训练配置)
- [2. SFDFuse: Spatial and frequency feature decomposition for visible and infrared image fusion](#2. SFDFuse: Spatial and frequency feature decomposition for visible and infrared image fusion)
-
- [2.1 算法核心摘要](#2.1 算法核心摘要)
- [2.2 数据集选取与划分](#2.2 数据集选取与划分)
- [2.3 数据预处理与增强](#2.3 数据预处理与增强)
- [2.4 实验训练配置](#2.4 实验训练配置)
- [3. DS2D: Decoupling feature guidance with state-space diffusion for infrared--visible image fusion](#3. DS2D: Decoupling feature guidance with state-space diffusion for infrared–visible image fusion)
-
- [3.1 算法核心摘要](#3.1 算法核心摘要)
- [3.2 数据集选取与划分](#3.2 数据集选取与划分)
- [3.3 数据预处理与增强](#3.3 数据预处理与增强)
- [3.4 实验训练配置](#3.4 实验训练配置)
- [4. PKDFusion: Prior knowledge driven dynamic fusion network for infrared and visible images](#4. PKDFusion: Prior knowledge driven dynamic fusion network for infrared and visible images)
-
- [4.1 算法核心摘要](#4.1 算法核心摘要)
- [4.2 数据集选取与划分](#4.2 数据集选取与划分)
- [4.3 实验训练配置](#4.3 实验训练配置)
- [5. TOFusion: Text-guided and object-aware infrared and visible image fusion](#5. TOFusion: Text-guided and object-aware infrared and visible image fusion)
-
- [5.1 算法核心摘要](#5.1 算法核心摘要)
- [5.2 数据集选取与划分](#5.2 数据集选取与划分)
- [5.3 实验训练配置](#5.3 实验训练配置)
- [6. DiffFuseNet: Infrared-visible image fusion via diffusion-guided feature alignment and feature consistency alignment](#6. DiffFuseNet: Infrared-visible image fusion via diffusion-guided feature alignment and feature consistency alignment)
-
- [6.1 算法核心摘要](#6.1 算法核心摘要)
- [6.2 数据集选取与划分](#6.2 数据集选取与划分)
- [6.3 实验训练配置](#6.3 实验训练配置)
- [7. IASSF: Infrared-assisted single-stage framework for joint restoration and fusion of visible and infrared images under hazy conditions](#7. IASSF: Infrared-assisted single-stage framework for joint restoration and fusion of visible and infrared images under hazy conditions)
-
- [7.1 算法核心摘要](#7.1 算法核心摘要)
- [7.2 数据集选取与划分](#7.2 数据集选取与划分)
- [7.3 数据预处理与增强](#7.3 数据预处理与增强)
- [7.4 实验训练配置](#7.4 实验训练配置)
- [8. DWSFusion: Dual weight supervision for lightweight infrared and visible image fusion](#8. DWSFusion: Dual weight supervision for lightweight infrared and visible image fusion)
-
- [8.1 算法核心摘要](#8.1 算法核心摘要)
- [8.2 数据集选取与划分](#8.2 数据集选取与划分)
- [8.3 数据预处理与增强](#8.3 数据预处理与增强)
- [8.4 实验训练配置](#8.4 实验训练配置)
- [9. CUDiff: Consistency and uncertainty guided conditional diffusion for infrared and visible image fusion](#9. CUDiff: Consistency and uncertainty guided conditional diffusion for infrared and visible image fusion)
-
- [9.1 算法核心摘要](#9.1 算法核心摘要)
- [9.2 数据集选取与划分](#9.2 数据集选取与划分)
- [9.3 数据预处理与增强](#9.3 数据预处理与增强)
- [9.4 实验训练配置](#9.4 实验训练配置)
- [10. 主流IVIF模型数据集与训练参数汇总](#10. 主流IVIF模型数据集与训练参数汇总)
- [11. 总结](#11. 总结)
在红外与可见光图像融合(IVIF)任务中,数据集的选取、划分方式以及预处理增强策略,直接决定模型的拟合效果、细节保留能力与跨场景泛化性能。目前主流IVIF算法普遍采用 XXXX,XXXX 的实验范式,能够更真实地验证模型在复杂未知场景下的实际应用能力。
本文系统梳理了DCFusion、SFDFuse、DS2D、PKDFusion等10种最新轻量化、高性能IVIF SOTA模型的数据集配置、预处理方案、训练参数及泛化测试策略,整理成可直接参考、对比的干货内容,为后续实验设计、模型复现与创新改进提供依据。
1. DCFusion: Difference correlation-driven fusion mechanism of infrared and visible images
1.1 算法核心摘要
现有IVIF损失函数大多对图像显著目标区域与背景区域无差别约束,无法有效挖掘多模态图像的互补特征,限制了融合性能。为此,本文提出差异相关驱动融合机制DCFusion。
该算法构建双分支交互网络,通过逐元素相乘融合跨模态多尺度互补信息;设计两阶段显著目标掩码生成方法,自适应聚焦红外图像高对比度目标区域;同时构建异质图像,设计LSCD损失函数缩小融合图像与源图像的信息差异,提升模型可解释性。在TNO、RoadScene数据集上的实验证明,DCFusion在主观视觉效果与客观评价指标上均达到最优水平。
关键词:差分相关;红外与可见光图像融合;显著目标掩码;跨模态特征融合
1.2 数据集选取与划分
选用IVIF领域两大主流基准数据集:TNO、RoadScene。总计收集330对红外-可见光图像,按照270对训练集、60对测试集划分,其中测试集包含TNO、RoadScene数据集各30对图像。
1.3 数据预处理与增强
仅对训练集进行数据增强:通过随机裁剪生成16200张120×120尺寸的图像块,测试集不做任何裁剪与增强操作,保证测试结果的真实性。
1.4 实验训练配置
基于PyTorch 1.11.0、Python 3.10.10实现,单张NVIDIA GTX 3090 GPU训练。采用Adam优化器,初始学习率0.001,β1=0.9、β2=0.999;训练轮数10epoch,批量大小64。损失函数初始权重α=0.1、β=0.1、γ=0.1,最终优化后权重为α=0.1、β=0.01、γ=0.5。
2. SFDFuse: Spatial and frequency feature decomposition for visible and infrared image fusion
2.1 算法核心摘要
针对现有IVIF算法无法自适应协调空间域、频率域特征,存在结构保留、细节恢复与推理效率难以兼顾的问题,本文提出轻量化双域协作融合框架SFDFuse。
算法通过空间域强度-结构交互模块实现多模态特征精准对齐,依托频率域可学习分离与自适应增强模块提取高频细节特征,结合双域融合模块动态融合全局结构与局部纹理。该模型仅0.03M参数,CPU处理单张640×480图像仅需0.11秒,在极致轻量化的同时,MI、Qabf指标较主流基线分别提升49.1%、27.2%,兼顾融合精度与实时性。
关键词:图像融合;空间-频率域协同;轻量化网络;实时融合;多尺度特征分解
2.2 数据集选取与划分
采用单数据集训练、多数据集零样本泛化测试策略:以MSRS数据集为训练集(1083对图像),测试集包含MSRS(361对)、RoadScene(50对)、TNO(25对),同时拓展M3FD、LLVIP数据集完成泛化验证,全程不对测试数据集微调,贴合真实场景部署需求。
2.3 数据预处理与增强
所有图像归一化至0,1区间并转换为float32格式;训练集图像随机裁剪为128×128图像块,依托U2Net生成显著性掩码,精准保留红外目标特征;训练前对数据集进行随机打乱处理,batch size设置为8。
2.4 实验训练配置
基于PyTorch框架实现,四块A100 GPU并行训练,采用两阶段训练策略,总计120epoch(阶段1:40epoch,阶段2:80epoch),Adam优化器。阶段1仅训练频率分离模块,阶段2冻结基础模块,全局优化双域交互特征。通过网格搜索确定损失函数各权重参数,重点强化图像边缘细节与目标背景对比度。
3. DS2D: Decoupling feature guidance with state-space diffusion for infrared--visible image fusion
3.1 算法核心摘要
现有基于扩散的IVIF算法存在扩散时间步冗余计算、高分辨率特征长程建模能力弱、推理速度慢等问题。本文提出DS2D扩散融合架构,通过特征提取与扩散主干解耦、特征缓存机制,消除冗余计算,推理速度较最优基线提升27.2%。
设计双特征编码器强化浅层特征长程依赖,解决内存瓶颈;构建含人工主观评估的增强融合数据集,搭配颜色感知损失抑制融合图像色彩失真。在多基准数据集及目标检测、语义分割下游任务中均实现优异性能。
关键词:图像融合;扩散模型;状态空间模型;特征解耦;下游视觉任务
3.2 数据集选取与划分
沿用MSRS数据集官方划分方式:1083对图像用于训练,361对图像用于测试。泛化测试数据集包含MSRS、M3FD、LLVIP、FMB,其中LLVIP无官方划分,从各典型场景随机选取100张图像测试,所有泛化数据集均零样本测试、无需微调。
3.3 数据预处理与增强
训练图像随机裁剪为160×160尺寸,通过随机翻转实现数据增强,像素值归一化至-1,1区间,批量大小16。
3.4 实验训练配置
单张NVIDIA RTX 3090 GPU训练,AdamW优化器,训练900epoch,初始学习率1e-5,β1=0.9、β2=0.999。扩散总时间步T=1000,噪声调度区间8.5e-4,1.2e-2,推理仅需10个时间步即可生成结果,大幅提升推理效率。
4. PKDFusion: Prior knowledge driven dynamic fusion network for infrared and visible images
4.1 算法核心摘要
针对现有IVIF算法跨模态长程交互建模不足、热目标显著性弱化、结构保真度差等问题,提出先验知识驱动的动态融合网络PKDFusion。
设计带门控记忆的动态融合单元自适应调节模态权重,通过多感知注意力机制捕获全局跨模态依赖,构建多模态特征耦合函数实现语义锚点对齐与模态内结构保真。在六个基准数据集上性能超越14种主流SOTA算法,可有效支撑语义分割、目标检测等下游任务。
关键词:图像融合;跨模态特征;动态融合;先验知识引导
4.2 数据集选取与划分
采用六大通用IVIF基准数据集完成训练与泛化测试:MSRS(1083/361)、FMB(1220/280)、LLVIP(12025/300)、M3FD(3900/300)、OpIVF(26428/40)、RoadScene(221对测试集)。
4.3 实验训练配置
NVIDIA RTX 5090 GPU训练,总计300epoch,批量大小36,初始学习率1e-4,配置超参数α=0.7、β=0.8、τ=0.1、ɛ=1e-8、λ1=10、λ2=6。
5. TOFusion: Text-guided and object-aware infrared and visible image fusion
5.1 算法核心摘要
现有IVIF算法多采用固定静态融合策略,存在融合同质化、红外干扰冗余、场景适配性差等问题。本文提出文本引导、目标感知的TOFusion网络,依托视觉-语言模型实现融合焦点可控调节,通过双路径动态优化策略筛选互补特征,自适应抑制无效红外背景、突出目标区域,大幅提升融合图像在目标检测、场景测量任务中的实用性。
关键词:图像融合;视觉-语言模型;目标感知;动态优化;多模态交互
5.2 数据集选取与划分
选用MFNet、FMB、LLVIP、M3FD四大数据集,涵盖多场景、多视角数据,其中LLVIP、M3FD重点用于行人检测下游任务验证。选取10种主流SOTA算法作为对比基线,涵盖通用融合与目标感知融合两类方法。
5.3 实验训练配置
双块NVIDIA A600 48GB GPU、Intel i9-14900K处理器训练,Adam优化器搭配余弦退火学习率策略,初始学习率4e-4,终止学习率4e-6,总计1000epoch。受显存限制,各数据集批量大小差异化设置:MFNet=3、FMB=2、M3FD=2、LLVIP=1,核心超参数α1=1.3、α2=0.8、α3=1.2。
6. DiffFuseNet: Infrared-visible image fusion via diffusion-guided feature alignment and feature consistency alignment
6.1 算法核心摘要
针对跨模态差异导致的融合特征失衡、细节模糊、热显著性不足等问题,提出DiffFuseNet融合算法。设计双重扩散特征增强模块提升跨模态鲁棒性,通过显式解耦与频率分解模块拆分共享特征、模态专属特征,结合Haar小波与可逆神经网络实现频率感知融合,搭配两阶段训练策略实现结构、细节、热特征的平衡融合。
关键词:图像融合;扩散模型;特征一致性对齐;频率分解;显式特征解耦
6.2 数据集选取与划分
采用MSRS数据集,总计1444对图像,按3:1比例划分为训练集与测试集。
6.3 实验训练配置
单张RTX 4090 GPU训练,Adam优化器,初始学习率1e-4,StepLR学习率调度(每20epoch学习率减半,下限1e-6)。两阶段训练总计120epoch(前40epoch阶段I、后80epoch阶段II),批量大小8,添加梯度裁剪(最大范数0.01)保证训练稳定,分阶段差异化配置各损失函数权重。
7. IASSF: Infrared-assisted single-stage framework for joint restoration and fusion of visible and infrared images under hazy conditions
7.1 算法核心摘要
现有IVIF算法忽略雾霾场景下红外图像对可见光图像的修复辅助作用,去雾与融合分步优化导致模型冗余、精度受损。本文提出单阶段联合修复融合框架IASSF,通过提示生成机制缓解模态特征不兼容问题,依托红外辅助特征恢复机制适配雾霾密度,实现去雾、融合协同优化。相较于两阶段方案,模型更轻量化,适配实际场景部署。
关键词:红外可见光融合;图像去雾;联合修复;单阶段框架;模态适配
7.2 数据集选取与划分
基础训练集采用MSRS数据集1083对图像,测试集为MSRS 361对图像;泛化测试选用M3FD(100对)、RoadScene(50对)数据集。为模拟雾霾场景,通过大气散射模型对可见光图像批量加雾,构建仿真雾霾融合数据集。
7.3 数据预处理与增强
训练图像随机裁剪为256×256尺寸,搭配水平、垂直翻转实现数据增强,端到端联合优化修复与融合损失。
7.4 实验训练配置
单张24GB NVIDIA RTX 4090 GPU训练,AdamW优化器,初始学习率2e-4,余弦退火降至2e-6,总计300epoch,批量大小6。
8. DWSFusion: Dual weight supervision for lightweight infrared and visible image fusion
8.1 算法核心摘要
针对现有融合模型参数量大、冗余信息干扰融合效果的问题,提出轻量化DWSFusion算法。设计频率自适应注意力权重估计模块捕捉模态专属特征,通过跨感知策略强化模态交互,创新特征级双权重监督闭环机制,抑制无效冗余特征。搭配双判别器与多尺度结构相似性损失,保障融合图像结构保真与纹理真实,实现性能与模型效率的最优平衡。
关键词:图像融合;轻量化网络;双权重监督;频率自适应;跨模态感知
8.2 数据集选取与划分
基于MSRS数据集训练,在TNO、RoadScene、MSRS、M3FD四大基准数据集上完成跨尺度泛化测试,对比13种主流SOTA融合算法。
8.3 数据预处理与增强
训练图像统一裁剪为240×320图像块,适配多分辨率测试场景,验证模型尺度鲁棒性。
8.4 实验训练配置
RTX 4090D GPU、AMD EPYC 9754 CPU训练,Ubuntu20.04、Python3.8、CUDA11.3环境。总计100epoch,批量大小64,生成器Adam优化(学习率1e-4),判别器RMSprop优化,核心超参数β=10、γ=0.1。
9. CUDiff: Consistency and uncertainty guided conditional diffusion for infrared and visible image fusion
9.1 算法核心摘要
现有IVIF算法对复杂模糊场景特征学习能力不足,本文提出CUDiff条件扩散融合框架,将融合任务重构为模态条件生成任务。通过内容一致性约束保留源图像结构完整性,依托自适应不确定性机制优化模糊区域特征,有效提升复杂场景融合质量,在图像融合与目标检测任务中均优于12种主流SOTA算法。
关键词:条件扩散模型;内容一致性;不确定性驱动;红外可见光融合
9.2 数据集选取与划分
MSRS数据集(1083对训练、361对测试),额外选取TNO 40张典型图像、LLVIP 300张代表性图像完成跨场景泛化测试。
9.3 数据预处理与增强
训练阶段随机裁剪160×160图像块,适配模型输入尺寸,满足扩散模型训练需求。
9.4 实验训练配置
基于PyTorch框架实现,采用余弦βt调度策略,扩散总步数T=2000,β值从1e-6线性调度至1e-2。融合模块采用Adam优化器,初始学习率1e-5,批量大小24,总计训练300epoch,损失函数超参数λ=10。
10. 主流IVIF模型数据集与训练参数汇总
为方便快速对比、复现实验,本文汇总了上述所有SOTA模型的数据集划分、泛化测试配置、预处理方式及训练轮次核心信息,统一整理为对照表,清晰呈现当前红外与可见光图像融合领域主流实验范式。
| 模型算法 | 训练数据集划分 | 泛化测试数据集 | 数据集预处理与增强方式 | 训练Epoch |
|---|---|---|---|---|
| DCFusion | TNO+RoadScene:270对训练、60对测试 | TNO(30对)、RoadScene(30对) | 仅训练集随机裁剪,生成16200张120×120图像块,测试集无处理 | 10 |
| SFDFuse | MSRS:1083对训练 | MSRS(361对)、RoadScene(50对)、TNO(25对)、M3FD(300对)、LLVIP(3463对) | 训练图裁剪为128×128,预处理前随机打乱,生成显著性掩码,batch=8 | 120(40+80两阶段) |
| DS2D | MSRS:1083对训练、361对测试 | M3FD、LLVIP(随机100张)、FMB | 随机裁剪160×160,随机翻转增强;像素归一化-1,1,batch=16 | 900 |
| PKDFusion | MSRS(1083/361)、FMB(1220/280)、LLVIP(12025/300)、M3FD(3900/300)、OpIVF(26428/40) | RoadScene(221对) | 无特殊预处理与增强说明 | 300 |
| TOFusion | MFNet、FMB、LLVIP、M3FD | 无额外泛化数据集 | 无特殊预处理与增强说明,按数据集适配差异化批量大小 | 1000 |
| DiffFuseNet | MSRS:1444对(3:1划分训练/测试) | 无额外泛化数据集 | 图像常规预处理,搭配梯度裁剪保障训练稳定 | 120(两阶段) |
| IASSF | MSRS:1083对训练、361对测试 | M3FD(100对)、RoadScene(50对) | 训练图随机裁剪256×256,水平+垂直翻转,可见光图像加雾仿真雾霾场景 | 300 |
| DWSFusion | MSRS完整数据集 | TNO、RoadScene、MSRS、M3FD | 图像统一裁剪为240×320,适配多尺度测试 | 100 |
| CUDiff | MSRS:1083对训练、361对测试 | TNO(40张)、LLVIP(300张) | 训练图像随机裁剪160×160图像块 | 300 |
11. 总结
纵观当前红外与可见光图像融合主流研究,单源数据集训练、多源零样本泛化测试已成为行业通用实验范式。绝大多数SOTA模型均以MSRS数据集为核心训练集,依托TNO、RoadScene、M3FD、LLVIP等经典数据集完成跨场景、跨分布泛化性能验证,能够有效模拟模型在真实复杂场景下的落地能力。
在预处理策略上,随机裁剪、图像翻转、像素归一化为基础通用手段,部分轻量化模型、特殊场景模型(如雾霾场景融合IASSF)会针对性设计尺寸裁剪、场景仿真、显著性掩码生成等定制化增强策略。训练策略方面,两阶段训练、余弦退火学习率、差异化损失权重配置被广泛应用,扩散类模型普遍具备训练轮次多、超参数精细的特点,轻量化模型则兼顾训练效率与推理性能。
后面继续分析一些论文使用的数据集及预处理方式。