基于互补特征分解和视觉显著性特征的光学与SAR图像融合

Optical and SAR Image Fusion Based on Complementary Feature Decomposition and Visual Saliency Features

作者: Yuanxin Ye, Jiacheng Zhang , Liang Zhou, Jinjin Li, Xiaoyue Ren, and Jianwei Fan

发表期刊: IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING

论文地址: https://ieeexplore.ieee.org/document/10438480/

摘要------红外与可见光图像呈现不同域，阻碍了融合过程，从而丢失纹理细节。此外，低级融合与后续高级分割之间存在跨任务特征鸿沟，阻碍了二者的相互促进，导致物体边缘模糊。针对上述问题，本文提出了一种同时跨越域和任务的新型红外与可见光图像融合方法。首先，构建了一种交换图像翻译策略，将可见光与红外图像的特征迁移至自适应域。同时，引入全局-局部约束实现整体域空间迁移，缩短其特征距离。其次，设计了一个任务交互与查询模块，探索跨任务特征交互关系，并以此为桥梁实现梯度反向传播。由此，获得了从分割特征到融合特征的细粒度映射。大量实验表明，所提方法展现出优于现有最先进方法的融合与分割性能。

关键词------红外与可见光图像融合，跨域跨任务，交换图像翻译策略，任务交互与查询模块。

I. 引言

随着遥感图像应用需求的增加以及单一图像所能提供的信息有限，有必要将多模态图像数据融合到一幅图像中，以形成更加丰富且有意义的融合图像 $1$ 。近年来，许多研究者关注光学（OPT）与合成孔径雷达（SAR）图像融合，并利用其为全天候土地分类、地面监测和目标检测提供独特信息 $2$ ， $3$ ， $4$ 。光学传感器被动接收来自地物对太阳照射反射的信息，因此能够提供丰富的光谱信息和清晰、细致的特征，这些特征几乎与人类视觉所观察到的内容一致，但其容易受到恶劣天气和光照不足的影响。相比之下，SAR是一种主动式微波传感器，它接收后向散射能量，能够在几乎所有天气和环境条件下获取信息，可以捕获突出的反射目标和显著的结构特征，但代价是图像中存在大量相干斑点噪声 $5$ 。从图1所示的一组光学和SAR图像可以看出，光学图像中的特征（例如道路和荒地）之间具有清晰的分布，但恶劣天气使光学图像受到雾气干扰，并且一些显著目标变得模糊（例如SAR图像红框中的输电塔）。然而，SAR传感器极强的穿透能力以及对金属的强反射使该目标能够被突出显示 $5$ 。因此，融合光学和SAR图像可以获取更丰富的目标信息。此外，由于光学传感器的成像方式，两个不同的结构物体可能表现出相同的光谱响应信息，在光学图像中无法被有效区分，但在SAR图像中可以被清晰地区分 $6$ 。如图1所示，光学图像黄框中的树木和草地的光谱信息相似，在视觉上难以区分。然而，它们在SAR图像中的后向散射信号差异很大，极易区分。而在红框中，在地物密集分布的区域，光学图像中轮廓结构的边界远不如SAR图像清晰，这是SAR传感器无法替代的信息优势 $6$ 。不可忽视的是，两组SAR图像中的随机斑点噪声在不同程度上破坏了特征细节，导致观察者获得极差的视觉感知 $7$ 。光学和SAR图像的互补特征分解与整合是融合的最终目标。关于互补特征分解的理论研究从未停止，Meyer $8$ 通过提出将图像分解为两类特征而取得了理论突破：结构和纹理，它们在全变分模型中分别被视为有界变差部分和振荡分布部分。在此基础上，许多研究者受到了启发。Vese和Osher $9$ 进一步提出将图像分解为卡通部分和纹理部分之和，并通过有限差分方法给出了真实纹理图像的数值结果。为了解决完整变分模型数值求解计算复杂且极其耗时的问题，Buades等人 $10$ 提出了一种快速卡通与纹理图像滤波算法，将高斯滤波器转换为非线性滤波器，以实现对原始变分模型最小化问题的简化快速近似。该方法仅通过一个参数控制特征分解效果的性质，也使其受到Zhang等人 $11$ 和Liu等人 $12$ 的高度青睐。然而，上述算法大多用于处理计算机视觉图像，面对SAR图像中大量斑点噪声时，会表现出极差的特征分解结果 $7$ 。

为图像的不同特征层设计融合规则始终是研究难点。尽管传统算法（例如成分替换 $13$ 和多尺度分解（MSD） $14$ ）在简单图像融合任务中具有优异性能，但面对日益增长的多模态图像融合需求时，它们已无法有效整合具有巨大差异的互补特征。许多研究尝试使用混合方法解决多模态图像融合问题，以在复杂图像融合任务中获得更好的结果 $15$ ， $16$ ， $17$ ，并且基于模型的方法 $18$ ， $19$ ， $20$ 也被用于提高通用融合任务的质量。然而，其仍然遭受SAR随机噪声的严重干扰，从而导致受损的视觉感知结果 $6$ 。这是因为基于变分模型的方法基于最小化能量函数的思想，通过对融合图像梯度值施加正则化约束来保留SAR图像的几何信息 $21$ 。然而，SAR噪声同样是具有较高局部梯度值的信息，也会被保留在融合结果中并干扰融合结果。

随着深度学习的广泛应用 $22$ ， $23$ ，大量研究尝试利用深度学习更深层次的特征表达能力来融合具有显著差异的特征信息，这提高了融合结果的信息丰富度，并极大促进了高级视觉任务的研究 $3$ ， $4$ ， $24$ 。然而，深度学习对真实训练数据集的依赖使得融合任务中损失函数的定义往往过于主观，并且难以克服光学和SAR图像数据质量的差异性 $16$ 。视觉显著性特征（VSF）是图像中以自底向上的方式吸引人类视觉注意的相对突出区域 $25$ 。作为计算机视觉中的基础理论，其已被应用于遥感图像融合 $26$ 。在可见光与红外图像融合中，一类算法通常使用视觉显著性模型计算保留显著特征信息对融合结果的权重 $27$ ，另一类算法则使用视觉显著性提取源图像的显著区域进行融合 $28$ 。在光学和SAR图像融合中，Liu等人 $29$ 借鉴这一思想，使用多任务显著性检测模型提取SAR图像信息并融合到光学图像中。上述算法仍然局限于基于像素灰度准则的显著性计算，无法有效整合多模态图像中丰富的VSF信息。VSF反映了人类在自由观察图像时的视觉行为，即观察者首先被色彩丰富或亮度突出的区域吸引，其次被大轮廓和精细边缘结构吸引，最后被规则排列的纹理信息吸引。重要的是，光学和SAR图像融合规则的设计应尽可能遵循这一规律，以整合重要且丰富的VSF信息。因此，我们提出了一种新的光学和SAR图像融合框架，称为VSF融合（VSFF）。首先，挖掘光学和SAR图像的互补特征 $10$ ，并将其划分为主体结构特征（MSF）和细节纹理特征（DTF）。一方面，构建新的视觉显著性图以平衡差异特征 $21$ ；另一方面，构建有效的特征描述以消除噪声干扰 $30$ 。最后，以真实视觉色彩重建融合图像 $31$ 。图2展示了我们的方法以及三种代表性融合方法获得的融合结果，包括拉普拉斯金字塔（LP） $32$ 、加权最小二乘（WLS） $26$ 和U2Fusion $33$ 。显然，我们的VSFF具有最佳的视觉感知和清晰的细节呈现，同时减少了大量斑点噪声，使融合结果看起来更加自然。

本文的主要贡献如下。

我们提出了一种新的光学和SAR图像融合框架，用于对源图像进行有效的互补特征分解和VSF的平衡整合，并消除SAR图像噪声对融合结果的破坏。
构建了新的像素和结构显著性特征图，用以约束融合结果，使其在不丢失来自SAR图像的显著结构和目标信息的同时，具有与光学图像相似的视觉效果。
与七种最先进的融合方法相比，我们的融合结果在互补特征信息存在巨大差异的情况下看起来更加完美平衡，提高了融合结果的可解释性，并且在六项定量指标中也取得了最佳结果。

II. 相关工作

A. 传统图像融合方法

在过去几十年中，传统方法凭借其计算简单性和泛化能力，在图像融合中得到了广泛应用和研究，主要分为四类：成分替换方法、多尺度分解方法、混合方法和基于模型的方法 $6$ 。成分替换方法的代表性算法包括强度-色调-饱和度（IHS）变换 $34$ 、主成分分析（PCA） $35$ 、Gram--Schmidt（GS） $13$ 和Brovery变换（BT） $36$ 。尽管这些算法计算简单，但它们非常依赖图像相关性。当面对光学和SAR图像这种传感器成像结果差异极大的情况时，它们可能导致严重的光谱失真。在多尺度分解方法中，金字塔变换和小波变换受到了最多关注，代表性算法包括拉普拉斯金字塔 $37$ 、离散小波变换（DWT） $38$ 、curvelet $39$ 和非下采样剪切波变换（NSST） $14$ 。多尺度分解方法克服了成分替换方法的缺点，减少了空间和光谱失真现象，并提供了更好的空间特征定位。然而，一些多尺度分解方法为了获得更好的定位信息，以增加计算复杂度为代价。混合方法结合了成分替换方法和多尺度分解方法的优点，以实现融合图像更好的空间和光谱信息表示。代表性算法包括IHS + DWT $40$ 、IHS + 非下采样轮廓波变换（NSCT） $41$ 和改进BT $42$ 。上述算法是基于成分替换方法保留空间细节的能力以及多尺度分解方法低损失保留光谱信息能力的改进研究，但很难有效克服来自SAR图像的噪声干扰，这使得融合图像的视觉效果不尽如人意。基于模型的方法以变分模型和稀疏表示（SR）模型为代表，衍生算法包括变分模型 $43$ 和LP-SR $20$ 。SR方法将融合问题视为一个图像恢复过程，通过过完备字典生成高分辨率图像，但稀疏编码和字典构建相当困难且极其耗时。变分模型通过构建来自光学图像的颜色信息与来自SAR图像的几何信息之间的约束关系，将融合过程转化为能量函数最小化，以实现信息传递。

B. 光学与SAR融合方法

针对光学与SAR图像特征的信息互补性，Kong等人 $44$ 保留了光学光谱信息和SAR纹理信息的整合，但忽略了光学纹理和SAR结构同样包含更多可解释特征。Wu等人 $45$ 关注通过混合方法将从SAR图像中提取的纹理信息与从光学图像小波变换中获得的高频细节信息进行融合，但缺乏结构信息的提取和整合。Li等人 $46$ 通过在混合方法中引入多尺度形态学梯度，增强了边缘特征的利用，从而使融合结果具有更高的相关性和更低的光谱失真，但仍无法解决SAR图像噪声对视觉感知的干扰。此外，为了解决SAR图像中严重的噪声破坏问题，Chu等人 $15$ 利用NSST方法抑制大量SAR噪声，使融合结果更加清晰，但过度的噪声抑制导致许多SAR结构特征丢失。为了避免融合中的光谱和空间失真，有研究提出了一种增益注入方法 $47$ ，用于减少多尺度空间中的信息损失。此外，Fu等人 $48$ 提出了一种基于相位一致性信息的改进方法，以减少由图像之间非线性辐射差异引起的光谱失真。与追求向融合结果中填充更多信息不同，一些研究开始关注融合图像的直接使用价值。例如，有研究 $16$ 通过设计活动度量来提高SAR图像的可解释性，但没有为光学图像增加更多意义。为了同时结合来自源图像的显著信息，Liu等人 $29$ 首次提出对SAR图像进行显著性检测，以获得不同尺度的显著性图，从而丰富光学图像的信息表达，但缺乏对具有多种特征的光学图像和SAR图像进行更深入的显著性研究。Shao等人 $19$ 提出了一种基于像素显著性的光学与SAR图像融合算法，该算法使用新的像素显著性图（PSM）代替SAR图像，更好地保留了光谱和空间信息，但忽略了SAR图像中的梯度信息以及噪声的破坏能力。Zhang等人 $20$ 尝试设计一种新的活动水平测量规则，以识别提取出的显著特征用于融合并重建融合结果，但仅利用了多尺度分解中的高频信息，忽略了其他重要特征。Gong等人 $17$ 提出了一种基于自适应多尺度高斯协处理滤波分解的方法，用于平滑纹理噪声并保留纹理中的边缘信息，从而生成低噪声干扰的融合结果。

C. 深度学习融合方法

近年来，由于深度学习具有更好的特征提取能力，其已被应用于解决光学与SAR图像融合中特定场景的应用问题（例如土地分类和云去除）。一个例子 $49$ 是构建3-D U-Net网络，结合光学的光谱数据和SAR的纹理数据，以提高各种作物类型的分类精度。类似地，有研究提出了一种自监督融合框架 $24$ ，利用超像素级别的多视角对比损失训练来提高土地覆盖制图任务的精度。为了消除图像中的云污染，Grohnfeldt等人 $50$ 首先设计了一种条件生成对抗网络（GAN），利用辅助SAR图像重建无云和无雾光学图像。此外，Gao等人 $51$ 充分结合卷积神经网络（CNN）的图像转换特性和GAN的信息融合思想，生成模拟光学图像，以消除云干扰区域。随着对光学与SAR图像互补性的研究，有论文 $7$ 提出了一种基于结构--纹理分解的无监督融合网络，该网络有效保留了纹理并增强了融合结果中的结构。然而，仍然缺乏大量具有真实融合结果的数据，这使得深度学习损失函数的设计往往具有主观性，并且在不同数据集上的融合效果相对变化较大且差异广泛 $16$ 。在其他多模态图像融合领域，已经提出了非常先进的深度学习融合模型，并取得了良好结果。Xu等人 $33$ 提出了一种新型统一且无监督的端到端图像融合网络，该网络利用源图像的自适应信息保留程度，在同一框架中实现多种融合任务。Zhang等人 $52$ 通过在两个卷积层上提取图像显著特征并构建适当的融合规则来重建融合结果，整个模型实现了全卷积融合训练，是一种通用融合网络。

III. 所提出的融合框架

在本节中，我们详细描述VSFF框架。图3展示了整个融合框架，该框架由四个关键部分和贡献组成：1）一种改进的互补特征分解算法，能够有效抑制斑点噪声；2）一种引入VSF的全变分融合算法，能够增强整体视觉感知；3）一种新的纹理特征描述子，能够保留更丰富的细节信息；4）一种快速IHS变换融合，能够补充真实颜色信息。

A. 图像预处理

由于本文使用的光学图像是RGB多波段遥感图像，而SAR图像是单波段图像，因此需要将多波段光学图像转换为类似的单波段数据。这里，我们对光学图像执行波段平均计算，以生成光学强度图像

I=R+G+B3(1) I=\frac{R+G+B}{3} \tag{1} I=3R+G+B(1)

其中，III表示光学强度图像，RRR、GGG和BBB分别是光学图像的三个波段。由于SAR图像和光学图像之间存在较大的光谱灰度差异，因此在融合之前有必要进行灰度均衡，使输入图像具有相同的灰度均值和标准差，以避免严重的光谱失真

fsarEq=(fsar−μ(fsar))σ(I)σ(fsar)+μ(I)(2) f_{sar_Eq}=\frac{\left(f_{sar}-\mu(f_{sar})\right)\sigma(I)}{\sigma(f_{sar})}+\mu(I) \tag{2} fsarEq=σ(fsar)(fsar−μ(fsar))σ(I)+μ(I)(2)

其中，μ\muμ和σ\sigmaσ分别表示均值和标准差，fsarf_{sar}fsar和fsarEqf_{sar_Eq}fsarEq分别表示初始SAR图像和均衡后的SAR图像。

B. 图像互补特征分解

任何遥感图像都可以分解为一组互补特征：MSF和DTF。源图像及其分解部分定义如下：

f=u+v(3) f=u+v \tag{3} f=u+v(3)

其中，fff表示光学或SAR遥感图像，uuu为MSF，vvv为DTF。第一步需要构建一个局部指示器，以判断每个像素属于MSF还是DTF。MSF是图像中在不同尺度下具有相对稳定局部变化的部分，而DTF是在滤波后往往具有较大局部变化的部分。图像的局部全变分（LTV）能够有效响应低通滤波下相对变化程度，以区分MSF和DTF，我们将图像的LTV及其相对降低率定义如下：

LTVσ(f)(x)=Lσ×∣∇f∣(x)(4) LTV_{\sigma}(f)(x)=L_{\sigma}\times|\nabla f|(x) \tag{4} LTVσ(f)(x)=Lσ×∣∇f∣(x)(4)

λ(x)=LTVσ(f)(x)−LTVσ(Lσ×f)(x)LTVσ(f)(x)(5) \lambda(x)=\frac{LTV_{\sigma}(f)(x)-LTV_{\sigma}(L_{\sigma}\times f)(x)}{LTV_{\sigma}(f)(x)} \tag{5} λ(x)=LTVσ(f)(x)LTVσ(f)(x)−LTVσ(Lσ×f)(x)(5)

其中，LσL_{\sigma}Lσ是线性滤波器，∇\nabla∇是梯度计算，λ\lambdaλ是每个像素的相对降低率，xxx是图像的像素位置。此外，有必要考虑SAR图像中存在许多碎片化特征边缘和斑点噪声，它们会在图像上表现为亮点，并容易被视为MSF。为了抑制斑点噪声，选择Wiener小波对图像进行平滑，该滤波器可以基于局部灰度信息自适应调整滤波效果 $53$ 。

第二步，通过对原始图像和滤波图像的相对降低率进行加权，实现图像互补特征分解 $10$ 。该步骤操作的具体计算如下：

u(x)=w(λ(x))Lσ×f+(1−w(λ(x)))f(6) u(x)=w(\lambda(x))L_{\sigma}\times f+\left(1-w(\lambda(x))\right)f \tag{6} u(x)=w(λ(x))Lσ×f+(1−w(λ(x)))f(6)

v(x)=f(x)−u(x)(7) v(x)=f(x)-u(x) \tag{7} v(x)=f(x)−u(x)(7)

w(λ)={0,λ≤a1λ−a1a2−a1,a1≤λ≤a21,λ≥a2(8) w(\lambda)= \begin{cases} 0, & \lambda\leq a_1\\ \dfrac{\lambda-a_1}{a_2-a_1}, & a_1\leq\lambda\leq a_2\\ 1, & \lambda\geq a_2 \end{cases} \tag{8} w(λ)=⎩ ⎨ ⎧0,a2−a1λ−a1,1,λ≤a1a1≤λ≤a2λ≥a2(8)

其中，www是由λ\lambdaλ计算得到的像素权重，a1a_1a1和a2a_2a2在实验中通常取为0.25和0.5。我们将在第IV节的实验结果中分析并解释这两个参数的取值。

C. MSF的融合策略

在MSF融合中，结构信息由像素灰度分布和梯度变化的组合来呈现。其中，像素灰度分布是区分地面场景区域和类型的基本信息，直接决定了融合结果的整体视觉效果。因此，我们需要从图像中提取并整合显著的像素灰度信息，例如光学图像中的灰度分布和SAR图像中的高反射值信息。而梯度变化是图像中一种容易吸引人类注意的重要特征信息，也是图像中VSF的表达。由于梯度变化程度反映了图像的粗略轮廓和精细结构，因此有必要提取不同尺度的显著结构信息来融合图像。因此，为了更好地从图像中提取VSF并保持视觉效果 $54$ ，我们分别重构两种不同类型的VSFM，即PSM和结构显著性图（SSM），以约束融合结果。PSM由光学和SAR图像的显著像素决定。我们首先基于图像中某个像素强度在所有像素中的权重程度来计算像素显著性。设IpI_pIp为图像III中像素ppp的像素强度。像素ppp的显著性值SpS_pSp可以定义并计算如下：

Sp=∑i=0L−1Mi∣Ip−Ii∣(9) S_p=\sum_{i=0}^{L-1}M_i|I_p-I_i| \tag{9} Sp=i=0∑L−1Mi∣Ip−Ii∣(9)

其中，iii表示像素强度，MiM_iMi表示强度等于iii的像素总数，在本文实验图像中L=256L=256L=256。通过迭代计算图像中所有像素的显著性值获得PSM；然后，需要将其归一化到 $0,1$ $0,1$ $0,1$ 。接下来，up1u_{p1}up1和up2u_{p2}up2分别表示光学和SAR图像的PSM，然后通过组合其中具有更高显著性值的像素生成像素约束VSFM

uPSM=wuopt+(1−w)usar(10) u_{PSM}=wu_{opt}+(1-w)u_{sar} \tag{10} uPSM=wuopt+(1−w)usar(10)

w=ceil⁡(up1−up2)(11) w=\operatorname{ceil}(u_{p1}-u_{p2}) \tag{11} w=ceil(up1−up2)(11)

其中，uoptu_{opt}uopt和usaru_{sar}usar分别表示光学和SAR图像的MSF。然后，我们生成融合来自光学和SAR图像互补结构特征的SSM。结构特征是图像中在多尺度空间中显著表达的像素区域，该部分特征在不同尺度下的相对梯度较大。此外，SAR图像中地物的MSF包含具有高后向散射值的区域。因此，需要整合光学和SAR图像中具有较大相对梯度的像素以及SAR图像中具有高强度值的像素，以生成能够显著表达结构特征的SSM。首先通过Wiener滤波获得多尺度MSF图像，然后根据如下定义的梯度算子计算图像在每个尺度下的局部梯度值：

uj=Wiener⁡(uj−1,sj−1)(12) u^j=\operatorname{Wiener}(u^{j-1},s^{j-1}) \tag{12} uj=Wiener(uj−1,sj−1)(12)

uGj=(hx×uj)2+(hy×uj)2,hx= $-101$ ,hy=hx′(13) u_G^j=\sqrt{(h_x\times u^j)^2+(h_y\times u^j)^2},\\ h_x=\begin{bmatrix}-1&0&1\end{bmatrix},\quad h_y=h_x' \tag{13} uGj=(hx×uj)2+(hy×uj)2 ,hx= $-101$ ,hy=hx′(13)

其中，uju^juj表示MSF第jjj层滤波结果，sss是Wiener滤波器的尺度参数。接下来，可以通过如下归一化获得相对局部梯度值：

uGNj={uGjuj,0.1<uGjuj<10,otherwise.(14) u_{GN}^j= \begin{cases} \frac{u_G^j}{u_j}, & 0.1<\frac{u_G^j}{u_j}<1\\ 0, & \text{otherwise.} \end{cases} \tag{14} uGNj={ujuGj,0,0.1<ujuGj<1otherwise.(14)

需要注意的是，结构外边缘和孤立噪声点将分别呈现大于1和接近0的结果，因此需要被去除。同时，一个重要的处理步骤是需要对图像的相对梯度结果进行均值滤波，以消除由SAR随机噪声导致的局部梯度值较大的问题。我们在尺度方向上对相对梯度值取平均以获得稳定结果，如下所示：

uGW=∑j=1nceil⁡(uGN2j−uGN1j)n(15) u_{GW}=\frac{\sum_{j=1}^{n}\operatorname{ceil}\left(u_{GN2}^j-u_{GN1}^j\right)}{n} \tag{15} uGW=n∑j=1nceil(uGN2j−uGN1j)(15)

其中，nnn是多尺度层数，uGN1ju_{GN1}^juGN1j和uGN2ju_{GN2}^juGN2j分别表示光学和SAR图像的uGNju_{GN}^juGNj值。最后，我们制定规则，对多尺度相对局部梯度值和像素强度值进行加权，以生成SSM，如下所示：

uSSM=(2−k1⋅k2)uopt+(k1⋅k2)usar(16) u_{SSM}=(2-k_1\cdot k_2)u_{opt}+(k_1\cdot k_2)u_{sar} \tag{16} uSSM=(2−k1⋅k2)uopt+(k1⋅k2)usar(16)

k1={1,uGW=10.5,otherwise(17) k_1= \begin{cases} 1, & u_{GW}=1\\ 0.5, & \text{otherwise} \end{cases} \tag{17} k1={1,0.5,uGW=1otherwise(17)

k2={1,uopt<usar0,otherwise.(18) k_2= \begin{cases} 1, & u_{opt}<u_{sar}\\ 0, & \text{otherwise.} \end{cases} \tag{18} k2={1,0,uopt<usarotherwise.(18)

接下来，将得到的两种不同类型的VSFM输入到全变分模型中，以约束优化求解融合结果。Ma等人 $21$ 给出了一个名为GTF的变分约束模型的良好示例，用于优化光学与红外图像融合结果。然而，它在两种不同的约束范式中分别只考虑来自一幅图像的信息，这会丢失更多显著的重要信息 $19$ 。因此，我们对该约束模型进行了适当修改，具体构建的全变分模型如下：

E(x)=1p∣x−uPSM∣pp+λ1q∣∇x−∇uSSM∣qq(19) E(x)=\frac{1}{p}|x-u_{PSM}|p^p+\lambda\frac{1}{q}|\nabla x-\nabla u{SSM}|_q^q \tag{19} E(x)=p1∣x−uPSM∣pp+λq1∣∇x−∇uSSM∣qq(19)

其中，xxx表示MSF的融合结果，λ\lambdaλ为正参数，用于平衡两个约束并避免过拟合问题。现在，我们需要考虑具体的ppp范数和qqq范数。对于PSM约束，我们期望最优结果为0，因此p=1p=1p=1。由于图像梯度是稀疏分布的，处理q=0q=0q=0为NP-hard问题的一种近似解是用l1l_1l1范数替代l0l_0l0范数。因此，梯度差最小化问题被转化为全变分问题。令y=x−uSSMy=x-u_{SSM}y=x−uSSM，优化问题（19）可以重写如下：

y∗=arg⁡min⁡y{∑i=1nm∣yi−(uPSM−uSSM)∣+λJ(y)} y^*=\arg\min_y\left\{\sum_{i=1}^{nm}\left|y_i-(u_{PSM}-u_{SSM})\right|+\lambda J(y)\right\} y∗=argymin{i=1∑nm∣yi−(uPSM−uSSM)∣+λJ(y)}

J(y)=∑i=1nm∣∇iy∣=∑i=1mn(∇ihy)2+(∇ivy)2(20) J(y)=\sum_{i=1}^{nm}|\nabla_i y|=\sum_{i=1}^{mn}\sqrt{(\nabla_i^h y)^2+(\nabla_i^v y)^2} \tag{20} J(y)=i=1∑nm∣∇iy∣=i=1∑mn(∇ihy)2+(∇ivy)2 (20)

其中，arg⁡min⁡\arg\minargmin表示最小化解，JJJ是图像的一阶导数。式（20）是一个标准的l1l^1l1全变分最小化问题。Rodriguez和Wohlberg $55$ 提供了一种使用迭代加权范数（IRN）算法求解广义全变分最小化模型的算法。该算法能够高效计算yyy，并生成最终的MSF融合图像。

D. DTF的融合策略

DTF是图像中具有强重复性和方向性的局部振荡分布。即使DTF可能在不同尺度上发生变化，其中高度可解释的纹理特征始终具有稳定的信息表示。因此，设计了一种新的特征描述子，可以捕获图像局部区域内的多方向和多尺度纹理信息。研究发现，Gabor小波的核函数类似于人类对视觉刺激的响应 $30$ 。同时，Gabor小波对图像边缘信息也较为敏感，是一种优秀的纹理特征滤波器。Gabor小波滤波器的数学形式如下：

gλ,θ,ϕ,σ,γ(x,y)=e−x′2+γ2y′22σ2cos⁡(2πx′λ+ϕ)γ g_{\lambda,\theta,\phi,\sigma,\gamma}(x,y)=e^{-\frac{x'^2+\gamma^2y'^2}{2\sigma^2}} \cos\left(2\pi\frac{x'}{\lambda}+\phi\right)\gamma gλ,θ,ϕ,σ,γ(x,y)=e−2σ2x′2+γ2y′2cos(2πλx′+ϕ)γ

x′=(xcos⁡θ+ysin⁡θ) x'=(x\cos\theta+y\sin\theta) x′=(xcosθ+ysinθ)

y′=(−xcos⁡θ+ysin⁡θ)(21) y'=(-x\cos\theta+y\sin\theta) \tag{21} y′=(−xcosθ+ysinθ)(21)

其中，λ\lambdaλ是余弦函数的波长参数，θ\thetaθ是条纹方向，ϕ\phiϕ是余弦函数的相位参数，σ\sigmaσ是高斯函数的标准差，γ\gammaγ是空间纵横比，xxx和yyy是滤波器内部的坐标。利用Gabor小波函数获得不同尺度和方向上的新DTF后，使用高斯滤波获得主尺度和方向上最稳定的DTF表示。随后，需要对尚未消除的噪声进行进一步处理。由于斑点噪声在DTF中表现为杂乱的亮点，直接的特征选择操作可能会在融合结果中保留部分噪声。在这种情况下，考虑到斑点噪声呈现不规则分布，而DTF本质上在局部区域内具有规律聚集性。因此，可以使用局部直方图统计来提高DTF的可靠性并消除随机斑点噪声。经过一系列操作步骤后，所获得的特征信息具有较高的可解释性和相对稳定性。具体处理步骤如图4所示。最后，整合来自光学和SAR图像的高可解释性特征，并选择更丰富的特征保留在融合结果中。我们需要使用相似性度量和局部梯度值来比较特征信息的丰富程度。首先，将上一步获得的特征描述向量归一化，形成特征概率分布的统计向量，然后使用KL散度测量其相似性，其定义如下：

KL $P∣∣Q$ =∑x∈XP(x)log⁡P(x)Q(x)(22) KL $P\|\|Q$ =\sum_{x\in X}P(x)\log\frac{P(x)}{Q(x)} \tag{22} KL $P∣∣Q$ =x∈X∑P(x)logQ(x)P(x)(22)

其中，PPP和QQQ表示概率分布向量，xxx是向量内部的坐标。具体而言，KL散度不满足对称性，即KL $P∣∣Q$ ≠KL $Q∣∣P$ KL $P\|\|Q$ \neq KL $Q\|\|P$ KL $P∣∣Q$ =KL $Q∣∣P$ 。我们通过计算KL $P∣∣Q$ KL $P\|\|Q$ KL $P∣∣Q$ 和KL $Q∣∣P$ KL $Q\|\|P$ KL $Q∣∣P$ 的平均值来构建一种新的相似性度量。如果该值越小，则意味着该像素处的特征越相似。新的相似性度量值（SMV）计算如下：

SMV=KL $P∣∣Q$ +KL $Q∣∣P$ 2.(23) SMV=\frac{KL $P\|\|Q$ +KL $Q\|\|P$ }{2}. \tag{23} SMV=2KL $P∣∣Q$ +KL $Q∣∣P$ .(23)

接下来，选择合适的阈值来判断特征信息是否相似，该阈值通过计算图像中所有像素SMV的均值来定义。综上，我们给出DTF融合的计算步骤如下：

vf(m,n)={vo(m,n)+vs(m,n)2,SMV(m,n)<SMVmeanH(m,n),SMV(m,n)≥SMVmean(24) v_f(m,n)= \begin{cases} \frac{v_o(m,n)+v_s(m,n)}{2}, & SMV(m,n)<SMV_{mean}\\ H(m,n), & SMV(m,n)\geq SMV_{mean} \end{cases} \tag{24} vf(m,n)={2vo(m,n)+vs(m,n),H(m,n),SMV(m,n)<SMVmeanSMV(m,n)≥SMVmean(24)

H(m,n)={vo(m,n),Go(m,n)≥Gs(m,n)vs(m,n),Go(m,n)<Gs(m,n)(25) H(m,n)= \begin{cases} v_o(m,n), & G_o(m,n)\geq G_s(m,n)\\ v_s(m,n), & G_o(m,n)<G_s(m,n) \end{cases} \tag{25} H(m,n)={vo(m,n),vs(m,n),Go(m,n)≥Gs(m,n)Go(m,n)<Gs(m,n)(25)

其中，SMVmeanSMV_{mean}SMVmean表示所有像素SMV的均值，vov_ovo和vsv_svs分别是光学和SAR图像的DTF值，GoG_oGo和GsG_sGs分别是光学和SAR图像DTF的梯度值，mmm和nnn是图像的像素坐标，vfv_fvf是DTF的融合结果。

E. 快速IHS变换方法

由于互补特征分解不可避免地会导致图像中部分光谱信息丢失，因此我们必须处理融合结果以恢复真实图像颜色。IHS融合是一种经典图像融合方法，能够通过简单计算实现光谱信息传递 $56$ 。在融合过程中，通过使用光学图像强度信息与SAR图像的融合结果替换原始I分量图像，可以为最终融合结果补充光学颜色信息 $31$ 。快速IHS变换方法的过程如下：

{Rf=R+If−IGf=G+If−IBf=B+If−I(26) \begin{cases} R_f=R+I_f-I\\ G_f=G+I_f-I\\ B_f=B+I_f-I \end{cases} \tag{26} ⎩ ⎨ ⎧Rf=R+If−IGf=G+If−IBf=B+If−I(26)

其中，RfR_fRf、GfG_fGf和BfB_fBf是RGB波段的融合结果，RRR、GGG和BBB是光学图像的RGB波段，IfI_fIf是强度分量的融合结果。

IV. 实验结果

在本节中，将所提出的方法与七种最先进的融合方法进行比较：LP $32$ 、双树复小波变换（DTCWT） $57$ 、NSCT $58$ 、hybrid-MSD $59$ 、WLS $26$ 、图像融合CNN（IFCNN） $52$ 和U2Fusion $33$ 。其中，前三种是经典多尺度分解方法，第四种是最新的混合多尺度分解方法，第五种是基于视觉显著性图的融合方法，最后两种是深度学习中最新的先进图像融合网络。在我们的实验中，从定性和定量两个方面评价图像融合质量。定性评价是对融合结果整体图像和局部细节的视觉感知分析。不同源图像的视觉感知关注点存在一些差异。图像融合中已经出现了大量用于定量评价的指标理论 $60$ ，包括对图像信息、梯度和结构相似性等图像特性的测量。每种图像评价指标都有其优点和缺点，因此有必要综合多个指标。本文采用六种评价指标：熵（EN） $61$ 、互信息（MI） $62$ 、QabfQ^{abf}Qabf $63$ 、 $63$ 、 $63$ 、QoQ_oQo $64$ 、视觉信息保真度融合（VIFF） $65$ 和差异相关和（SCD） $66$ 。EN是衡量图像所包含信息的客观评价指标。MI是衡量两幅图像之间相似程度的指标（即原始图像中有多少信息包含在融合结果中）。QabfQ^{abf}Qabf用于衡量输入图像中有多少显著信息在融合结果中得到表示。QoQ_oQo是一种新的广义图像质量指标。VIFF是一种基于视觉信息保真度提出的广义图像质量度量。SCD是一种基于差异图像与原始图像之间相关系数之和的新评价指标。上述指标的值越高，表示结果越好。

A. 数据集和参数设置

为了验证实验算法对光学和SAR显著特征的融合效果以及噪声去除能力。所有算法都在一个高分辨率（亚米级）SAR与光学数据集以及公开可用的WHU-OPT-SAR数据集上进行测试。以下是对数据集的详细描述。

高分辨率SAR与光学数据集：该数据集 $67$ 包括从吉林省白城市和陕西省渭南市周边地区获取的高分辨率SAR图像（0.5 m），包含房屋、农田和山地三种典型地物场景。1 在下载对应区域的Google-Earth光学图像，并通过CFOG $68$ ， $69$ ， $70$ 中的方法进行高精度图像配准后，将其进一步裁剪为1000×10001000\times10001000×1000像素的图像对，然后选取60对具有丰富场景信息的图像作为测试数据集。

1该数据集可在 https://github.com/yeyuanxin110/YYX-OPTSAR 获取。

WHU-OPT-SAR数据集：Li等人 $71$ 开源了一组采集于湖北省的光学和SAR图像数据集。光学图像来自GF-1卫星（2 m分辨率），SAR图像来自GF-3卫星（5 m分辨率）。WHU-OPT-SAR数据集覆盖范围广泛，包括山地、林地、丘陵、平原和植被等多样地形。为了更好地展示融合细节，在实验中将该数据集的图像重采样到相同的地面采样间隔（即5 m），并裁剪为1000×10001000\times10001000×1000像素大小。
参数设置：在互补特征分解模块中，Wiener滤波器的大小设置为3。在MSF融合模块中，正参数λ\lambdaλ设置为2。在DTF融合模块中，Gabor小波的尺度设置为( $4,8$ )，方向设置为 $0\circ,45\circ,90\circ,135\circ$ $0\^\\circ,45\^\\circ,90\^\\circ,135\^\\circ$ $0\circ,45\circ,90\circ,135\circ$ 。其他参数采用默认设置。

B. 高分辨率SAR与光学数据集的结果分析

融合结果如图5所示，我们使用黄色矩形框放大了一些融合细节。并且，我们展示了六个场景的结果，涵盖了房屋、农田和山地等典型特征类型。总体而言，所有方法都较好地融合了SAR图像中的房屋、道路和田地轮廓边界，以及树影和田间作物纹理等SAR特有信息。然而，在三种经典多尺度分解方法LP、DTCWT和NSCT中，光学图像的光谱信息受到严重破坏。这是由于SAR图像中低灰度级信息导致融合结果整体变暗，一些重要地物场景被阴影覆盖。相比之下，虽然hybrid-MSD保留了较好的光学颜色信息，但它缺少一些关键显著信息。例如，在第五行的局部放大场景中，可以看到hybrid-MSD缺失了SAR在左下方提供的田地边缘信息。类似地，在第六行的局部放大场景中，SAR树影干扰导致其丢失了光学图像提供的重要田间道路信息。WLS融合结果的整体视觉仍然受到SAR图像色调和噪声的干扰，并存在一定的光谱失真。在深度学习方法中，U2Fusion的融合结果受到SAR图像噪声的严重破坏；例如，在第一、第三和第六行场景中，噪声已经遮蔽了特征信息。虽然IFCNN降低了噪声的视觉影响，但它并没有真正消除斑点噪声，例如在第四行场景中，这仍然导致了光谱失真。从所有局部放大图来看，VSFF方法在消除SAR图像噪声干扰的同时，实现了最佳的光学颜色融合，并突出了SAR主要轮廓信息的视觉感知。得益于显著特征选择的优势，光学和SAR各自的独特细节都被完美保留，且互不干扰。图7和表I展示了不同方法在高分辨率SAR与光学数据集上的融合结果定量分析。可以看出，VSFF在所有指标上均优于其他方法，这表明VSFF在整合结构和细节信息方面具有巨大优势。

C. WHU-OPT-SAR数据集的结果分析

融合结果如图6所示，具体包含铁路、桥梁和荒地等重要目标。对于不同图像，VSFF融合结果对显著特征信息具有更细致的表示，并具有优异的去噪效果。从融合结果的视觉感知角度来看，我们的方法在所有场景中都表现出优异的去噪效果。一方面，融合结果图的局部放大区域看起来更加干净舒适，光学和SAR特征能够被清楚地区分。特别是在第一、第二和第五个场景中，与其他方法相比，VSFF方法更加关注土地和房屋的真实纹理与颜色信息，并避免它们被杂乱的斑点噪声遮蔽。另一方面，VSFF方法能够准确保留显著且重要的目标信息。例如，在第三和第四个场景中，光学图像中的红色火车和桥梁是极具价值的特征。然而，很明显，其他方法的融合结果中这些目标模糊甚至不存在，只有我们的方法完整地重建了目标。总之，VSFF融合方法在不丢失重要特征信息的情况下，实现了SAR图像噪声的有效去除，并最大程度恢复了地物的真实颜色。图8和表II展示了不同方法在WHU-OPT-SAR数据集上的融合结果定量分析。其中，EN和MI指标显示了VSFF融合结果的高信息含量，这直观地表明所提取的显著特征是图像的高可解释性特征。特别是，更高的VIFF指标表明融合结果具有更好的清晰度。因此，VSFF的融合结果更适合视觉解译。

D. 实验分析和消融研究

基于Wiener滤波器的互补特征分解：为了验证所提出的基于Wiener滤波器的互补特征分解在特征保留和SAR噪声去除方面的优异性能，对SAR图像特征分解结果与其他滤波器进行了比较分析。我们选择了最经典的高斯滤波器和RGF $72$ ，它们已广泛用于大量互补特征分解实验，并且实验中所有滤波器的尺度参数相同。图9展示了不同滤波器对SAR图像进行互补特征分解得到的MSF结果。可以看出，高斯滤波器的结果消除了噪声，但也模糊了结构特征信息，这是由于高斯核平等地对待图像中的所有像素。而RGF的结果很好地突出了结构特征信息。但作为一种保边滤波器，它无法很好地区分噪声和结构，因此几乎也完整保留了噪声。Wiener滤波器能够自适应地调整滤波效果，同时在结构保留和噪声抑制方面取得最佳结果，并且MSF图像看起来清晰干净。表III给出了使用不同滤波器得到的融合结果定量指标比较，基于Wiener滤波器的结果最佳。
不同类型的VSF方法：我们对所提出的两类VSFM的有效性进行了实验分析。图10展示了四种情况下的融合结果。当没有输入VSFM时，融合结果完全受到SAR图像噪声破坏，甚至严重模糊，导致视觉感知极差。当只输入其中一种VSFM时，图像模糊现象有所改善，但会出现光谱失真或结构丢失。只有当输入完整的PSM和SSM时，融合结果才能完美平衡差异特征信息，并具有最佳视觉效果。表IV给出了四种情况下不同融合结果的定量评价。前三个测试的指标结果各有优势，而完整VSFM在所有指标上取得了最佳结果。
DTF融合策略的噪声去除能力分析：在DTF融合处理中，我们进一步消除了被认为是DTF的噪声信息。从图11可以看出，我们的算法能够有效去除大量斑点噪声，使图像的真实纹理信息得以清晰显示。这归功于使用Gabor描述子对初始DTF进行多尺度和方向信息提取与表示，从而准确分割随机噪声和规律重复纹理。表V给出了有无噪声情况下融合结果的定量评价，我们的噪声去除算法具有更高的指标值。
互补特征分解的参数分析：图12展示了不同卷积核大小下不同区域像素的λ\lambdaλ变化。在细节纹理区域，λ\lambdaλ随着卷积核大小快速增加，并接近1。在结构边缘区域，它随着卷积核大小变化缓慢，低于0.25。式（8）中的两个关键参数是a1a_1a1和a2a_2a2，用于确定像素的结构或纹理属性权重。为了保证光学和SAR图像的特征分解效果，滤波器卷积核大小通常在3到7之间，因此具有纹理属性的像素的λ\lambdaλ值都大于0.5，而具有结构属性的像素的λ\lambdaλ值都小于0.25。因此，a1=0.25a_1=0.25a1=0.25和a2=0.5a_2=0.5a2=0.5是合理的参数取值选择。
融合方法的运行时间分析：表VI给出了在数据集上测试的不同融合方法的平均运行时间，所有方法均在配备Intel Core i7-11800H CPU的计算机上运行。我们的方法比传统多尺度方法NSCT快得多，即使与最新的hybrid-MSD和WLS方法相比，也节省了更多时间。然而，它比其他方法运行得慢，这主要是由于融合中的迭代优化以及噪声去除中的统计计算。此外，我们的算法使用MATLAB编写和实现，在某些矩阵运算中缺乏充分的代码优化。

V. 结论

本文提出了一种新的基于VSF的光学与SAR图像融合框架，称为VSFF。它提取图像的显著互补信息，然后通过不同的融合方法和规则实现融合目的。从融合结果可以明显看出，我们的方法消除了更多噪声，并保留了光学和SAR图像中的显著且重要的特征目标。当然，与七种最先进的融合方法相比，我们的方法在六种不同的定量评价指标上取得了最佳结果。这证明我们的结果具有丰富的光谱信息和更清晰的视觉感知。然而，尽管我们的算法能够很好地处理大量光学和SAR图像，但当面对由雾霾和厚云等恶劣条件导致的光学图像质量较差时，由于VSF提取的局限性，很难完全消除云损伤对结构的影响，从而降低融合结果的质量。我们将在未来工作中对其进行改进和优化，使其能够广泛适用于不同条件下的光学和SAR图像。