【零参考GAN:Pansharpening】

ZeRGAN: Zero-Reference GAN for Fusion of Multispectral and Panchromatic Images

（用于多光谱和全色图像融合的零参考GAN）

本文提出了一种融合低空间分辨率多光谱(LR MS)和高空间分辨率全色(PAN)图像的新的全色锐化方法--零参考生成对抗网络(ZeRGAN)。在该方法中，零参考表示它不需要使用成对的缩小尺度图像或未成对的全尺度图像进行训练 。为了得到准确的融合结果，我们在一组多尺度生成器和它们对应的鉴别器之间建立了一个对抗性博弈。通过多尺度生成器，融合的高空间分辨率MS（HRMS）图像逐步从LR MS和PAN图像产生，而鉴别器的目的是区分HRMS图像和PAN图像之间的空间信息的差异 。换句话说，在优化ZeRGAN之后，从LR MS和PAN图像生成HR MS图像。此外，我们构建了一个非参考损失函数，包括对抗性损失，空间和光谱重建损失，空间增强损失和平均恒定性损失。通过最小化总损失，可以有效地增强HRMS图像中的空间细节。在不同卫星采集的数据集上进行了大量的实验。

INTRODUCTION

近年来，不同的地球观测卫星，如QuickBird，GeoEye-1和WorldView-2收集了大量的遥感图像。这些卫星可以同时获取低空间分辨率多光谱图像和全色图像。目前，所捕获的图像已广泛且成功地用于目标发现、土地覆盖分析和环境监测。然而，由于空间和光谱分辨率之间的固有权衡，难以获得上述卫星的高空间和光谱分辨率MS（HR MS）图像。一方面，LR MS图像包含丰富的光谱信息，但空间分辨率低于PAN图像。另一方面，PAN图像仅由一个高空间分辨率带组成。因此，通过将LR MS图像中的光谱信息与PAN图像中的空间细节整合在一起，应用图像融合（也称为泛锐化）来产生融合的HR MS图像。

在过去的二十年中，已经提出并开发了各种算法来科普全色锐化任务。它们可以分为四种类型：1）组分替代（CS）方法; 2）多分辨率分析（MRA）方法; 3）基于退化模型（DM）的方法;以及4）基于深度神经网络（DNN）的方法。CS方法因其原理简单、实现速度快而得到了广泛的应用。他们将插值的LR MS图像投影到一个新的域中以估计合适的空间分量。然后用PAN图像代替空间分量，并通过相应的逆投影生成融合的HR MS图像。例如，在这种情况下使用的典型变换是强度-色调-饱和度（IHS）变换、主成分分析（PCA）和Gram-Schmidt（GS）变换。此外，提出了频带相关空间细节（BDSD）算法，以更准确地估计增益参数。然而，由于在图像之间考虑了全局变换，因此在融合结果中产生了显著的光谱失真。

基于MRA的方法假设要添加到LR MS图像中的空间信息是从PAN图像中获取的，这被称为结构注入空间分辨率改善（ARSIS）。在这些方法中，空间细节的提取和注入增益的计算对融合结果有重要影响。通过许多MRA工具提取空间细节，例如contourlet和广义拉普拉斯金字塔。Otazu等人提出了一种加性小波亮度比例（AWLP）方法来估计PAN图像中的高频分量。由于只有PAN图像的空间细节被注入到LR MS图像中，因此基于MRA的融合结果在光谱保真度方面具有良好的性能。

基于DM的方法假设所观察到的LR MS和PAN图像分别是空间域和谱域中的HR MS图像的退化版本。例如，Li和Yang通过将空间和光谱DM视为测量矩阵，将图像融合任务重新表述为压缩感知问题。此外，融合模型通过其他有效先验进行正则化，例如稀疏性，非负性和低秩先验。虽然这些方法在空间和光谱信息保持方面表现良好，但它们的计算复杂度远高于前两类方法。

如今，DNN已经在各个领域取得了巨大的成功，还被用于全息锐化。例如，Huang等人采用堆叠式改进稀疏去噪自动编码器进行全息锐化。Masi等人受文献[24]中超分辨率模型的启发，提出了一种基于卷积神经网络(CNN)的全息锐化方法--PNN。在[25]中，PANet是通过将特定问题的先验与残差网络(ResNet)相结合而建立的。该算法能较好地保持融合图像的光谱和空间保持性。随后，Fu等人引入了分组多尺度扩张网络，以提高空间信息的多尺度表示能力。Zhang等人提出了一种双向金字塔网络，将PAN图像中的空间细节逐层注入LR MS图像中。在[29]中，在分组贴片上构建了堆叠稀疏自动编码器。根据这些补丁的几何结构，他们被分类，然后送入自动编码器。此外，生成对抗网络（GAN）也被用于融合LR MS和PAN图像。例如，Liu等人首先利用GAN生成融合图像，然后在[32]中扩展。然后，Ma等人采用两个鉴别器来保持融合图像中的空间和光谱信息，这可以避免在训练期间需要HR MS图像。此外，在MDSSC-GAN中使用了生物多样性框架。在这种方法中，第一个滤波器由图像的亮度和近红外波段馈送，而第二个滤波器的输入是光谱分量的级联。在[35]中，提出了一种基于无监督GAN的方法，包括监督预训练和无监督微调。然而，基于DNN的泛锐化方法可能倾向于过拟合成对的训练数据。因此，当分析由其他卫星获得的新数据时，泛化能力降低。此外，需要考虑与训练数据有关的两个问题。一方面，大多数基于DNN的泛锐化方法通常使用成对图像进行训练，如图1（a）所示。但是，HR MS图像在真实的场景中不可用。因此，成对图像由空间退化后的LR MS和PAN图像的缩小比例版本组成。因此，原始LR MS图像直接被视为参考数据。然而，在全尺寸图像的空间细节不能有效地从缩小规模的图像对学习。另一方面，一些基于GAN的泛锐化方法被提出用于全尺度图像的显式训练，其中包含原始尺度的LR MS和PAN图像。它们也被称为未配对图像，如图1（b）所示。然而，这些网络需要重复训练，以获得理想的结果，因为不同的卫星图像之间的不同分布。此外，它们需要大量的训练数据。

基于这两个方面，本文提出了一种基于GAN的零参考GAN（ZeRGAN）方法，用于由PAN图像锐化LR MS图像。如图1（c）所示，ZeRGAN不需要任何成对的缩小比例图像或未成对的全比例图像进行训练。因此，在对该方法的损失函数进行优化后，可以直接由多尺度发生器得到融合图像。特别是，我们采用了一组级联的多尺度生成器，逐步增加MS图像中的空间信息，同时保留光谱信息。在每个尺度上，残差学习被嵌入到生成器中，以改善中间HR MS图像中的空间细节。同时，在相同的尺度下，相应的缩放被用来进一步区分中间和真实的PAN图像中的空间信息。通过光谱响应滤波（SSF），从中间HR MS图像生成中间PAN图像。此外，为了确保零参考训练的融合性能，我们设计了一个无监督损失函数，其中包含对抗损失，空间和光谱重建损失，空间增强损失和平均恒定性损失，用于在每个尺度上优化生成器和滤波器。实验结果表明，即使没有任何训练集，ZeRGAN仍然具有竞争力的性能相比，依赖于配对或不配对的图像进行训练的方法。

贡献

1）ZeRGAN不需要任何训练数据。通过优化GAN并结合空间和光谱DM，实现了LR MS和PAN图像的融合。一个多尺度生成器架构被用来增强空间细节的LR MS图像协作。

2）一个任务驱动的非参考损失函数制定了一个有效的措施，融合图像中的空间和光谱信息，这减轻了大量的训练数据的需要。

3）对于光谱保存，我们引入了一个新的损失项，平均恒定性损失，它假设LR MS图像中的频带的平均值应相应地等于HR MS图像中的频带。

GENERATIVE ADVERSARIAL NETWORKS

自从GAN由Goodfellow等人提出以来由于其强大的生成能力，在图像处理和图像合成等各个领域的性能都有了显着的提高。GAN主要通过最小-最大对抗游戏学习生成器G和BND。生成器G可以学习数据分布，并创建真实的样本来欺骗CMDD。相反地，CNOD的目的是分类样本是由生成器G合成的还是来自真实的数据。然后，上述两个玩家的游戏可以在数学上表示为：

然而，原始GAN遭受训练不稳定性。然后，提出了深度卷积GAN（DCGAN）来稳定GAN的训练，其中生成器和卷积神经网络都由CNN组成。Mao等人在最小二乘损失的约束下，惩罚假样本的分布更接近真实的数据的分布。Wasserstein GAN（WGAN）采用具有更好理论特性的Wasserstein距离来衡量真实的和虚假数据之间的差异。然而，WGAN的收敛是缓慢的，有时不稳定。因此，Gulrajani等人提出了WGAN-GP损失并引入梯度惩罚来直接保证Lipschitz条件，其目标函数为

PROPOSED METHOD

ZeRGAN的框架如图2所示，其中生成器和鉴别器分别主要负责注入和区分HR MS图像中的真实空间信息。更具体地说，一系列的生成器被设计为增强在不同尺度的中间HR MS图像的空间细节，同时保留光谱信息。此外，在每个尺度上的缩放还负责中间PAN图像和真实的PAN图像中的空间信息的一致性。通过SSF从中间HR MS图像产生中间PAN图像。此外，通过以不同比率下采样原始PAN图像来合成对应于不同尺度的真实的PAN图像。此外，一个无监督的损失来自空间光谱模型和先验知识，使零参考训练成为可能。虽然已经提出了许多基于GAN的泛锐化方法，例如PSGAN和MDSSC-GAN，但这些方法需要大量的成对图像进行训练。所提出的ZeRGAN不需要任何配对或未配对的数据，这消除了训练数据的问题。此外，现有的基于GAN的方法通常使用单个生成器来合成融合结果。ZeRGAN提出了由多个生成器组成的多尺度框架，从粗到细生成融合图像，以提高融合效果。

Multiscale Generator

多尺度发生器由L个级联的生成器组成，其中生成器G_l在尺度l处的输出是H_l ∈ R r l M × r l N × B R^{r_l M×r_l N×B} RrlM×rlN×B，生成器G_l+1在尺度l + 1处的输入。M × N × B是原始LR MS图像H₀的大小。r_l是H₀和H₁之间的空间分辨率比。因此，我们可以将LR MS图像在不同尺度下的连续增强写为：

其中H_l-1和P_l都被馈送到发生器G_l。通过下采样从原始PAN图像生成P_l。注意，P_l的大小与H_l的大小一致。然后，期望的HR MS图像是H_L ∈ R r l M × r l N × B R^{r_l M×r_l N×B} RrlM×rlN×B，即G_L在尺度L下的输出。通常，在全色锐化任务中r_L等于4。

不同规模的生成器的架构如图3所示。对于生成器的输入，我们首先通过双三次算子将MS图像H_l-1直接上采样到真实的PAN图像P1的大小。然后，将上采样的MS图像与PAN图像连接在一起作为生成器的输入。生成器由五个卷积层组成。过滤器大小为3 × 3，步长为1。对于前四个卷积层，滤波器的数量设置为n。在最后一个卷积层中使用了四个滤波器。Leaky ReLU激活函数应用于前四个卷积层。批量归一化（BN）也被级联以防止梯度消失。为了充分利用以前的功能，在生成器中引入了密集连接。通过密集连接，可以加强不同层中的特征传播，从而有效地将空间细节注入HRMS图像。

Spatial Discriminator

在ZeRGAN的架构中，鉴别器{D1，D2，.，DL }被设计为由于SSF的引入而间接地区分HR MS图像中的空间信息。SSF被建模为

其中 H b H^b Hb_l是H_l的第b个频带，并且ω_b是固定的光谱响应权重。经由SSF从MS图像H_l-1产生中间PAN图像~P ₁。

为了有效地捕获真实的和中间PAN图像的分布之间的差异，构造完全卷积网络，其结构在图4中示出。卷积D_l由五个卷积层组成，其中前四层中的每一层都包含n个大小为3 × 3的内核。最后一个卷积层只包含一个大小为3 × 3的滤波器。此外，前四个卷积层与BN和Leaky ReLU连接。完全卷积设置用于有效地对图像中的空间细节进行建模。在所提出的方法中，所有不同尺度的所有鉴别器共享相同的架构。

Nonreference Loss Function

在ZeRGAN中，多尺度生成器和鉴别器是通过无监督训练过程依次学习的。在所提出的方法中，生成的HR MS图像不仅要欺骗鉴别器，而且要满足与源图像的退化关系和其他约束。因此，我们在生成器上施加额外的损失以实现有效的学习。考虑以下损失来训练所提出的模型。
Spatial and Spectral Reconstruction Losses: 通常，LR MS和PAN图像分别被视为HR MS图像的空间和光谱退化结果。具体地，尺度l的空间和光谱观测模型被定义为：

滤波器是钟形的，可以近似为高斯滤波器[46]。n₁和n₂是加性噪声。因此，空间和光谱退化损失可以公式化为：

其中α和β是正则化参数。（7）中的两个约束分别是空间保真度项和光谱保真度项。然后， L l L^{l} Ll_sr可以保留空间和光谱信息，并在这两项之间进行折衷，由α和β值进行调整。
1) Spatial Enhancement Loss: 对于不同波段的MS图像，由于其光谱响应，边缘或纹理有明显的差异。使用相同的空间增强策略将导致不同频带上的伪影。在所提出的方法中，假设H_l中的高频信息遵循与（6）相同的谱退化关系，其类似地表示为

其中▽梯度算子用于高频信息提取。然后，可以通过以下方式实现空间增强：
2) Average Constancy Loss: 受[47]中的颜色恒定性损失的启发，我们提出了平均恒定性损失来保留HR MS图像中的光谱信息。假设LR MS图像中的谱带的平均值应相应地等于HR MS图像中的谱带的平均值。通过这一假设，LR MS图像的波段之间的关系可以继承到HR MS图像的波段之间的关系。然后，平均恒定性损失被建模为
3) Adversarial Loss: 在所提出的方法中，利用从H_l生成的中间PAN图像~ P_l来欺骗鉴别器D_l。为了保证训练的稳定性，该方法考虑了WGAN-GP损失

将上述所有损失合并在一起，第l级的总损失总结为：