图像融合论文阅读：CoCoNet: 基于多层特征集成的耦合对比学习网络多模态图像融合

@article{liu2023coconet,

title={Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion},

author={Liu, Jinyuan and Lin, Runjia and Wu, Guanyao and Liu, Risheng and Luo, Zhongxuan and Fan, Xin},

journal={International Journal of Computer Vision},

pages={1--28},

year={2023},

publisher={Springer}

}

论文级别：SCI A2

影响因子：19.5

📖[论文下载地址]

📖论文解读

作者提出了一种耦合对比学习网络CoCoNet，这是一个【通用】的图像融合网络。

使用耦合对比学习来指导模型区分目标以及纹理细节，并且采用了一种测量机制来计算源图像的比例重要性，以生成数据驱动的权重并应用于损失函数之中。

🔑关键词

image fusion, infrared and visible image, unsupervised learning, contrastive learning

图像融合，红外和可见光图像，无监督学习，对比学习

💭核心思想

保持互补信息，消除冗余信息。

使用数据驱动机制计算信息保留度，以提高融合结果和源图像强度和细节的一致性。

使用多级注意力模块（multi-level attention module ，MAM）避免融合过程中的特征退化。

参考链接
[什么是图像融合？（一看就通，通俗易懂）]

🪢网络结构

作者提出的网络结构如下所示。

C A ( ⋅ ) CA(·) CA(⋅)是通道注意力

🪢耦合对比学习

作者的思路是，将红外图像的显著目标作为正样本，将可见光图像的显著目标作为负样本；同理，将可见光图像的的背景作为正样本，红外图像背景作为负样本。

基于TNO数据集人工标注掩膜，设 M \mathcal M M为前景的显著掩膜， M ˉ \bar {\mathcal M} Mˉ为背景的显著掩膜。

红外图像×前景掩膜可以得到显著目标，可见光图像×背景掩膜得到了背景信息。

作者选用预训练VGG-19代表G，将此处的损失函数定义为：

N和M分别为每个正样本的VGG层数和负样本数。
μ i \mu_i μi代表融合图像的前景特征 G i ( I F ⊙ M ) G_i(I_F\odot \mathcal M) Gi(IF⊙M)
μ i + \mu_i^+ μi+和 μ i m − \mu_i^{m-} μim−分别是正样本和负样本, μ i + = G i ( I R ⊙ M ) \mu_i^+=G_i(I_R\odot \mathcal M) μi+=Gi(IR⊙M) μ i m − = G i ( I V m ⊙ M ) \mu_i^{m-}=G_i(I_V^m \odot \mathcal M) μim−=Gi(IVm⊙M)
m m m代表第m个负样本， ∣ ∣ ⋅ ∣ ∣ 1 ||·||_1 ∣∣⋅∣∣1是L1范数。

同理，在背景部分，将可见光图像背景作为正样本，红外图像背景作为负样本。细节约束的目标函数为：

v i v_i vi代表融合图像的背景特征 G i ( I F ⊙ M ˉ ) G_i(I_F\odot \bar {\mathcal M}) Gi(IF⊙Mˉ)
v i + v_i^+ vi+和 v i m − v_i^{m-} vim−分别是正样本和负样本, v i + = G i ( I V m ⊙ M ˉ ) v_i^+=G_i(I_V^m \odot \bar {\mathcal M}) vi+=Gi(IVm⊙Mˉ) v i m − = G i ( I R ⊙ M ˉ ) v_i^{m-}=G_i(I_R \odot \bar {\mathcal M}) vim−=Gi(IR⊙Mˉ)