论文阅读——Pan-sharpening via conditional invertible neural network

Pan-sharpening via conditional invertible neural network

Abstract
[1. Introduction](#1. Introduction)
[2. Related work](#2. Related work)
- [2.1. Invertible neural network](#2.1. Invertible neural network)
- [2.2. Conditional generative network](#2.2. Conditional generative network)
[3. The proposed method](#3. The proposed method)
- [3.1. Problem formulation](#3.1. Problem formulation)
- - 总体架构
  - [PAN 特征提取](#PAN 特征提取)
  - 前向网络
  - 逆向网络
- [3.2. PAN-based conditional invertible block](#3.2. PAN-based conditional invertible block)
- - 混合卷积块
  - [3.3. 损失函数](#3.3. 损失函数)
  - [3.4. 可逆性的分析](#3.4. 可逆性的分析)

Abstract

在传统的基于深度学习的全色图像融合（pan-sharpening）方法中，一直存在着在不同通道之间协调输入的全色图像（PAN）和多光谱图像（MS）的挑战。现有方法常常受到光谱失真和纹理表现不足的困扰。为了解决这些局限性，我们提出了一种创新的约束式图像生成策略，专门针对全色图像融合任务。我们的方法采用了一种名为 PSCINN 的多尺度条件可逆神经网络，该网络能够在全色图像的指导下，将真实的多光谱图像转化为低分辨率的多光谱图像和一个潜变量。随后，从先验分布中获取的重采样潜变量与低分辨率的多光谱图像一起，用于以信息保留的方式预测融合后的全色图像，而全色图像在这一过程中提供了重要的指导作用。

此外，我们精心设计了一个条件可逆模块来构建雅可比行列式（Jacobian Determinant）以恢复光谱信息。该结构有效地将条件全色图像预处理为实用的纹理信息，从而防止在融合结果中的光谱信息受到潜在污染。所提出的 PSCINN 在客观和主观结果方面均优于现有的最先进的全色图像融合方法。后期实验表明，我们的方法显著提高了感知质量。

介绍部分这里略写了一部分

1. Introduction

随着深度学习技术的不断发展，并在物体检测[8]、动作识别[9]和分割[10]等高级任务中取得成功，越来越多的研究者开始转向基于深度学习的全色锐化方法。这些全色锐化方法试图通过卷积神经网络（CNN）在前向传播过程中弥合高分辨率（HR）多光谱图像（MS）与低分辨率（LR）多光谱图像之间的差距，同时相应的全色（PAN）图像可以视为强耦合的图像级[11]和特征级[12]补充（如图1左侧所示）。然后，可以利用全色锐化图像与地面实况MS图像之间的监督损失函数来优化CNN。为了提高图像特征在全色锐化任务中的表示能力，已引入一些新技术，如残差学习策略[13]、多尺度框架[12]和注意力机制[14]。与传统的手工设计算法相比，这些基于标准CNN的全色锐化方法在主观和客观质量上取得了显著的进展。然而，它们仍然存在光谱失真和融合结果中的纹理较差等问题[15]。这主要是因为上述信息融合策略耦合了PAN和MS图像，而平衡PAN图像的作用更为困难，因为它可以视为MS图像的退化光谱版本。

全色锐化任务的主要目标是生成具有丰富纹理和光谱信息的高分辨率多光谱（HR-MS）图像。为了实现这一目标，我们提出了一种约束式全色锐化框架，将全色锐化问题定义为一个基于约束的图像生成任务，其中全色图像（PAN）被视为引导和约束，从而减少了PAN图像和多光谱（MS）图像之间的耦合，如图1. 右侧所示。与标准卷积神经网络（CNN）不同，我们的框架包括前向传播和反向传播。该框架在PAN图像的引导下，将地面实况MS图像转换为下采样的MS图像和一个潜在变量。然后，通过从先验分布中重新采样得到的潜在变量与低分辨率MS图像一同用于预测全色锐化图像，在此过程中全色图像作为反向过程中的引导。

Fig. 1. Comparison of standard CNN-based pan-sharpening framework (left) and the proposed conditional invertible neural network (right).

所提出的PSCINN框架包括一个PAN特征提取器、一个可逆的MS特征提取器和两个重缩放块，如图2. 所示。PAN特征提取器可以提取多尺度的PAN特征，这些特征随后被输入到MS特征提取器和重缩放块，用于高分辨率图像的分解和全色锐化图像的生成。同时，可逆MS特征提取器和重缩放块中的条件可逆（CInv）块构建了一个Jacobian行列式，用于光谱信息的恢复。该块有效地将条件PAN图像预处理为有用的纹理信息，从而防止最终全色锐化结果中的光谱信息被污染。值得注意的是，PAN特征提取器在逆网络中不参与。

2.1. Invertible neural network

与传统的残差块 [16] 及其变体 [17,18] 相比，可逆神经网络（INNs）在变分推理任务中表现出色 [19-21]。这些网络具有在不同分布之间进行信息无损转换的独特特性，使其适用于多种任务 。INNs 实现了生成图像与潜变量之间更为廉价的逆映射。具体来说，在可逆神经网络中，潜变量 z z z用于生成图像，即 x = f θ ( z ) x = f_\theta (z) x=fθ(z)，其中逆过程为 z = f θ − 1 ( x ) z = f_\theta^{-1}(x) z=fθ−1(x)。

Dinh 等人 [22] 提出了一种基于流的可逆方法，该方法使用交叉耦合层将高维数据映射到独立的潜变量，用于图像生成任务。在 [23] 中，叠加耦合层被替换为仿射耦合层，以实现信息的完全混合。Kingma 等人 [24] 引入了可逆的 1×1 卷积层，以保持空间局部相关性。然而，为了确保简单的逆变换，这些算法的非线性变换能力相比传统的残差块和密集块有所限制。Behrmann 等人 [25] 提出了一种带有简单归一化步骤的可逆标准 ResNet 块 [16]，可用于分类、密度估计和生成任务。这种可逆网络已经扩展到各种图像恢复任务，如图像超分辨率 [26]、噪声去除 [27] 和 RAW 图像重建 [28]。

2.2. Conditional generative network

传统的生成网络已经被用于将高斯噪声转换为图像生成和恢复任务中的预期样本分布。然而，为了避免生成不合逻辑的图像，条件信息 [29] 被引入生成对抗网络（GAN）中，作为额外的约束。为了确保生成的多样性，Brock 等人 [30] 提出了一种大规模生成对抗网络（GAN），通过潜变量的约束来控制不同的分辨率和层特征。Odena 等人 [31] 引入了辅助分类器，用于区分输入样本的类别并生成多样化的样本。这些框架也已有效应用于其他图像任务。Sun 等人 [32] 提出了一种统一的图像重绘框架，利用纹理、颜色、几何和背景等条件信息来生成高质量的合成图像。在神经辐射场翻译任务中，Cai 等人 [33] 分离了场景的内容，这可以解释为常见的姿态先验。

主要看这篇文章的模型，前两部分可是略看

3. The proposed method

在本节中，我们对问题进行公式化，并详细介绍所提出的方法，包括基于全色图像（PAN）的条件可逆模块、混合卷积层、损失函数以及可逆性的分析。

3.1. Problem formulation

总体架构

所提出的 PSCINN 框架的总体架构包括全色图像（PAN）特征提取器、可逆多光谱（MS）特征提取器和多尺度重缩放块，如图2所示。我们将输入的低分辨率多光谱图像表示为 I L M ∈ R w × h × c I_{LM} \in \mathbb{R}^{w \times h \times c} ILM∈Rw×h×c，输入的高分辨率全色图像表示为 I H P ∈ R r w × r h × 1 I_{HP} \in \mathbb{R}^{rw \times rh \times 1} IHP∈Rrw×rh×1，对应的高分辨率多光谱图像（即地面真实值）表示为 I H M ∈ R r w × r h × c I_{HM} \in \mathbb{R}^{rw \times rh \times c} IHM∈Rrw×rh×c，其中 w w w、 h h h 和 c c c 分别表示宽度、高度和通道数。 r = 4 r = 4 r=4 表示高分辨率全色图像与低分辨率多光谱图像之间的空间分辨率比例。

PAN 特征提取

首先，将全色图像 I H P I_{HP} IHP 输入到多尺度深度特征提取器 f c f_c fc 中，公式如下：
f c 4 , f c 2 , f c 1 = f c ( I H P ) f_{c4}, f_{c2}, f_{c1} = f_c(I_{HP}) fc4,fc2,fc1=fc(IHP)

其中， f c 4 f_{c4} fc4、 f c 2 f_{c2} fc2 和 f c 1 f_{c1} fc1 的尺寸分别为 4 w × 4 h × 4 4w \times 4h \times 4 4w×4h×4、 2 w × 2 h × 16 2w \times 2h \times 16 2w×2h×16 和 w × h × 64 w \times h \times 64 w×h×64。特征提取操作不涉及可逆过程。

前向网络

高分辨率多光谱图像 I H M I_{HM} IHM 被输入到可逆多光谱特征提取器 h M 4 h_{M4} hM4 中，得到其浅层特征图 f M 4 f_{M4} fM4，该特征图由特征图 f c 4 f_{c4} fc4 指导生成，公式如下：
f M 4 = h M 4 ( I H M , f c 4 ) f_{M4} = h_{M4}(I_{HM}, f_{c4}) fM4=hM4(IHM,fc4)

然后，将 f M 4 f_{M4} fM4 输入到第一个重缩放块 f R 1 f_{R1} fR1 中，得到多尺度特征。具体来说，可逆多光谱特征提取器由三个堆叠的基于 PAN 的条件可逆块组成。重缩放块由 Haar 变换和三个堆叠的基于 PAN 的条件可逆块组成。第二个重缩放块 f R 2 f_{R2} fR2 将特征转换为低分辨率多光谱图像和潜变量。此过程可以表达为：
f M 2 = h R 1 ( f M 4 , f c 2 ) f_{M2} = h_{R1}(f_{M4}, f_{c2}) fM2=hR1(fM4,fc2)

I L M ′ , z \] = h R 2 ( f M 2 , f c 1 ) \[I'_{LM}, z\] = h_{R2}(f_{M2}, f_{c1}) \[ILM′,z\]=hR2(fM2,fc1) 其中， I L M ′ I'_{LM} ILM′ 是尺寸为 w × h × 4 w \\times h \\times 4 w×h×4 的下采样多光谱图像， f M 2 f_{M2} fM2 的尺寸为 2 w × 2 h × 64 2w \\times 2h \\times 64 2w×2h×64， f M 4 f_{M4} fM4 的尺寸为 4 w × 4 h × 64 4w \\times 4h \\times 64 4w×4h×64。 z z z 表示尺寸为 w × h × 60 w \\times h \\times 60 w×h×60 的前向潜变量。 #### 逆向网络 逆向网络可以看作是前向网络的逆过程，即通过输入的低分辨率多光谱图像和重新采样的潜变量，在全色图像的指导下生成融合图像。此过程可以表达为： f M 2 − 1 = h R 2 − 1 ( Concat ( I L M , z ′ ) , f c 1 ) f_{M2}\^{-1} = h_{R2}\^{-1}(\\text{Concat}(I_{LM}, z'), f_{c1}) fM2−1=hR2−1(Concat(ILM,z′),fc1) f M 4 − 1 = h R 1 − 1 ( f M 2 − 1 , f c 2 ) f_{M4}\^{-1} = h_{R1}\^{-1}(f_{M2}\^{-1}, f_{c2}) fM4−1=hR1−1(fM2−1,fc2) I P S = h M 4 − 1 ( f M 4 − 1 , f c 4 ) I_{PS} = h_{M4}\^{-1}(f_{M4}\^{-1}, f_{c4}) IPS=hM4−1(fM4−1,fc4) 其中， ( . ) − 1 (.)\^{-1} (.)−1表示逆向函数， z ′ ∼ N ( 0 , 1 ) z' \\sim \\mathcal{N}(0, 1) z′∼N(0,1) 表示从正态分布中采样的逆向潜变量。 I P S I_{PS} IPS 表示融合后的图像。 ### 3.2. PAN-based conditional invertible block 现有策略将全色（PAN）图像视为多光谱（MS）图像的信息补充。然而，全色图像包含丰富的纹理和光谱信息。因此，提出的条件可逆块旨在通过引导来解耦全色图像和多光谱图像，如下所示。每个条件可逆块将输入 i i i 分成两部分 \[ i 1 , i 2 \] \[i1, i2\] \[i1,i2\]，具体如下： i 1 , i 2 = Split ( i ) i1, i2 = \\text{Split}(i) i1,i2=Split(i) 其中， Split ( . ) \\text{Split}(.) Split(.) 表示按通道拆分函数。 接下来进行如下操作： o 1 = i 1 ⊙ exp ⁡ ( e 1 ( i 2 , c ) ) + b 1 ( i 2 , c ) o1 = i1 \\odot \\exp(e1(i2, c)) + b1(i2, c) o1=i1⊙exp(e1(i2,c))+b1(i2,c) o 2 = i 2 ⊙ exp ⁡ ( e 2 ( o 1 , c ) ) + b 2 ( o 1 , c ) o2 = i2 \\odot \\exp(e2(o1, c)) + b2(o1, c) o2=i2⊙exp(e2(o1,c))+b2(o1,c) 其中， ⊙ ( . ) \\odot(.) ⊙(.) 表示乘法运算。 e 1 , e 2 , b 1 e1, e2, b1 e1,e2,b1 和 b 2 b2 b2 表示多尺度卷积神经网络（CNN）块。 exp ⁡ ( . ) \\exp(.) exp(.) 表示指数函数。 c c c 表示相应尺度的全色特征图。然后将这两个特征输入解码阶段，如下： o = Concat ( o 1 , o 2 ) o = \\text{Concat}(o1, o2) o=Concat(o1,o2) 其中， Concat ( . ) \\text{Concat}(.) Concat(.) 表示按通道连接。 可逆过程被视为前向过程的逆过程，可以公式化如下： o 1 , o 2 = Split ( o ) o1, o2 = \\text{Split}(o) o1,o2=Split(o) i 2 = o 2 − b 2 ( o 1 , c ) exp ⁡ ( e 2 ( o 1 , c ) ) i2 = \\frac{o2 - b2(o1, c)}{\\exp(e2(o1, c))} i2=exp(e2(o1,c))o2−b2(o1,c) i 1 = o 1 − b 1 ( o 2 , c ) exp ⁡ ( e 1 ( o 2 , c ) ) i1 = \\frac{o1 - b1(o2, c)}{\\exp(e1(o2, c))} i1=exp(e1(o2,c))o1−b1(o2,c) i = Concat ( i 1 , i 2 ) i = \\text{Concat}(i1, i2) i=Concat(i1,i2) 其中， / / / 表示除法运算。前向和可逆步骤中的重缩放块列于表1.中。 ![biao1](https://i-blog.csdnimg.cn/direct/59c68f9ed75c437c959c7a7705f25549.png) #### 混合卷积块 为了提高所提方法的表达能力和复用能力，我们采用了遵循密集连接策略的混合卷积块，如图3. 所示。具体而言，混合卷积块由五个卷积层组成。这个过程可以表示为： f n = h n ( Concat ( f 0 , . . . , f n − 1 ) ) , n = 1 , . . . , 5 f_n = h_n(\\text{Concat}(f_0, ..., f_{n-1})), \\quad n = 1, ..., 5 fn=hn(Concat(f0,...,fn−1)),n=1,...,5 其中， f n f_n fn 表示第 n n n 个卷积层 h n ( . ) h_n(.) hn(.) 的输出图，输入为 f 0 f_0 f0。 通过这种设计，混合卷积块能够充分利用前面所有层的特征，从而增强模型的特征表达能力。 ![3](https://i-blog.csdnimg.cn/direct/0c5d05b845934d36a06188baa3994794.png) #### 3.3. 损失函数 可逆网络包括正向和反向操作，相应的损失函数由两个部分组成。首先，我们在低分辨率多光谱（LR MS）图像和前向网络生成的图像之间采用监督损失函数，以引导所提出的方法，在全色图像的约束下分离高频纹理信息和低分辨率光谱信息。这个过程可以描述为： L forw ( I H M , I H P ) = 1 b ∑ i = 1 b ∥ I L M − I L M ′ ∥ k , (17) \\mathcal{L}_{\\text{forw}}(I_{HM}, I_{HP}) = \\frac{1}{b} \\sum_{i=1}\^{b} \\\|I_{LM} - I'_{LM}\\\|_k, \\tag{17} Lforw(IHM,IHP)=b1i=1∑b∥ILM−ILM′∥k,(17) 其中， b b b 表示输入批次的数量， k k k 是范数。 反向网络的目标是恢复一个感知上真实且视觉上令人愉悦的图像。反向网络的损失函数可以描述为： L inv ( I L M , I H P , z ′ ) = 1 b ∑ i = 1 b ∥ I P S − I H M ∥ k . (18) \\mathcal{L}_{\\text{inv}}(I_{LM}, I_{HP}, z') = \\frac{1}{b} \\sum_{i=1}\^{b} \\\|I_{PS} - I_{HM}\\\|_k. \\tag{18} Linv(ILM,IHP,z′)=b1i=1∑b∥IPS−IHM∥k.(18) 最终的损失函数是正向损失 L forw \\mathcal{L}_{\\text{forw}} Lforw 和反向损失 L inv \\mathcal{L}_{\\text{inv}} Linv 的加权和，具体如下： L total = α L forw + L inv , (19) \\mathcal{L}_{\\text{total}} = \\alpha \\mathcal{L}_{\\text{forw}} + \\mathcal{L}_{\\text{inv}},\\tag{19} Ltotal=αLforw+Linv,(19) 其中，超参数 α \\alpha α 用于平衡两个损失的权重，更多细节可以在第4.5节中找到。 总结来说，在正向网络的训练过程中，输入的真实图像被输入网络，在公式（17）的监督和全色图像的引导下生成下采样的多光谱图像和隐藏映射。正向网络可以视为在全色图像的引导下，高频（隐藏映射）和低频（下采样的多光谱图像）信息的分离。在反向网络的训练过程中，输入的多光谱图像和隐藏映射被输入网络，在公式（18）的监督和全色图像的引导下生成全色锐化的多光谱图像。反向网络可以视为通过重新采样遵循简单分布的隐藏变量来恢复高频纹理信息。 #### 3.4. 可逆性的分析 ![4](https://i-blog.csdnimg.cn/direct/11b711d5e6964e758c3b420024d7746a.png) 可逆网络的一个关键特性是其在信息保留的情况下操作时，其雅可比行列式（Jacobian Determinant）不为零\[44\]。所提出的条件可逆（CInv）块展示了双重结构，为了计算方便，我们在图4.中展示了CInv块的解耦版本。与解耦版本的可逆块对应的雅可比行列式 J f J_f Jf 可以如下描述： v 1 = i 1 ⊙ exp ⁡ ( e 1 ( i 2 , c ) ) + b 1 ( i 2 , c ) , v_1 = i_1 \\odot \\exp(e_1(i_2, c)) + b_1(i_2, c), v1=i1⊙exp(e1(i2,c))+b1(i2,c), v 2 = i 2 , v_2 = i_2, v2=i2, J f = \[ ∂ v 1 ∂ i 1 ∂ v 1 ∂ i 2 ∂ v 2 ∂ i 1 ∂ v 2 ∂ i 2 \] = \[ ∂ v 1 ∂ i 1 ∂ v 1 ∂ i 2 0 1 \] = ∂ v 1 ∂ i 1 = exp ⁡ ( e 1 ( i 2 , c ) ) . J_f = \\begin{bmatrix} \\frac{\\partial v_1}{\\partial i_1} \& \\frac{\\partial v_1}{\\partial i_2} \\\\ \\frac{\\partial v_2}{\\partial i_1} \& \\frac{\\partial v_2}{\\partial i_2} \\end{bmatrix} = \\begin{bmatrix} \\frac{\\partial v_1}{\\partial i_1} \& \\frac{\\partial v_1}{\\partial i_2} \\\\ 0 \& 1 \\end{bmatrix} = \\frac{\\partial v_1}{\\partial i_1} = \\exp(e_1(i_2, c)). Jf=\[∂i1∂v1∂i1∂v2∂i2∂v1∂i2∂v2\]=\[∂i1∂v10∂i2∂v11\]=∂i1∂v1=exp(e1(i2,c)). 显然， J f ≠ 0 J_f \\neq 0 Jf=0。同样地，CInv块的剩余部分的雅可比行列式结果也不等于零。因此，总的雅可比行列式也不为零。因此，可以自信地断言，所提出的可逆块确实具有可逆性。