论文阅读——Deep Variational Network for Blind Pansharpening

Abstract
[PROPOSED METHOD](#PROPOSED METHOD)
- [A. Modeling the Pansharpening Process in a Bayesian Framework](#A. Modeling the Pansharpening Process in a Bayesian Framework)
- [B. Forms of Variational Posterior](#B. Forms of Variational Posterior)
- [C. Variational Lower Bound for Joint Posterior Distribution](#C. Variational Lower Bound for Joint Posterior Distribution)
- [D. Network Architecture](#D. Network Architecture)
- [E. Loss Function](#E. Loss Function)

Abstract

基于深度学习的方法在全色锐化中扮演着重要角色，全色锐化利用全色图像来增强多光谱图像的空间分辨率，同时保持其光谱特征。然而，大多数现有方法在训练过程中主要只考虑一种固定的退化情况。因此，当测试数据的退化情况未知（盲）且与训练数据不同时，这些方法的性能可能会显著下降，这在实际应用中很常见。为了解决这个问题，我们提出了一种用于盲全色锐化的深度变分网络，称为VBPN，它将退化估计和图像融合整合到一个完整的贝叶斯框架中。首先，通过将多光谱图像的噪声和模糊参数以及全色图像的噪声参数作为隐藏变量，我们使用神经网络对融合问题的近似后验分布进行参数化。由于该后验分布中的所有参数都被显式建模，因此可以轻松估计多光谱图像和全色图像的退化参数。此外，我们设计了由退化估计和图像融合子网络组成的VPBN，它可以根据测试数据通过变分推理优化融合结果。因此，盲全色锐化的性能可以得到提升。总的来说，VPBN通过结合基于模型和基于深度学习的优点，具有良好的可解释性和泛化能力。在模拟和真实数据集上的实验证明，VPBN能够实现最先进的融合结果。

PROPOSED METHOD

A. Modeling the Pansharpening Process in a Bayesian Framework

在实际退化场景中， M M M 和 F F F 之间的物理关系通常可以构建如下：

M = ( F ∗ K ) ↓ s + N ( 3 ) M = (F ∗ K) ↓_s + N \quad (3) M=(F∗K)↓s+N(3)

其中， K K K 表示模糊核， ↓ s ↓_s ↓s 表示尺度因子为 s s s 的下采样操作， N N N 表示加性高斯噪声。为了更贴近真实场景的建模，本文将 K K K 定义为各向异性高斯模糊核。

根据公式 (3)，我们可以自然地将 M M M 的先验分布建模为高斯分布：

M i ∼ N ( M i ∣ [ ( F ∗ K ) ↓ s ] i , σ i 2 ) , i = 1 , ... , d ( 4 ) M_i ∼ \mathcal{N} \left( M_i \big| [(F ∗ K) ↓_s]_i, \sigma_i^2 \right), \quad i = 1, \dots, d \quad (4) Mi∼N(Mi [(F∗K)↓s]i,σi2),i=1,...,d(4)

其中， σ i 2 \sigma_i^2 σi2 是高斯噪声的噪声方差。为了对 M M M 进行更精确的细化建模，我们认为 M M M 中每个像素的模糊和噪声是不同的。 d d d 表示 M M M 中的总像素数。

在对观测变量 M M M 进行建模时，我们引入了三个潜在变量。接下来，需要为变分推断设计融合结果 F F F、模糊核 K K K 和噪声方差 σ i 2 \sigma_i^2 σi2 的先验信息。为了计算方便，我们选择了共轭先验分布形式。

对于融合结果 F F F，我们引入以下高斯分布作为共轭先验：

F i ∼ N ( F i ∣ x i , ε 0 2 ) , i = 1 , ... , n ( 5 ) F_i ∼ \mathcal{N} \left( F_i \big| x_i, \varepsilon_0^2 \right), \quad i = 1, \dots, n \quad (5) Fi∼N(Fi xi,ε02),i=1,...,n(5)

其中， x i x_i xi 表示模拟数据集中的高分辨率多光谱图像， n n n 是全色图像 P P P 的像素数。 ε 0 2 \varepsilon_0^2 ε02 是一个超参数，用于捕捉 x x x 和 F F F 之间的差距，在实验中可以设置为接近零的极小值。

受变分图像超分辨率方法 VIRNet [44] 的启发，我们以与 VIRNet 相同的形式分别对 σ i 2 \sigma_i^2 σi2 和 K K K 的共轭先验进行建模。我们选择逆伽马分布作为 σ i 2 \sigma_i^2 σi2 的共轭先验，并简化为：

σ i 2 ∼ I G ( σ i 2 ∣ α 0 − 1 , α 0 ξ i ) , i = 1 , ... , d ( 6 ) \sigma_i^2 ∼ \mathcal{IG} \left( \sigma_i^2 \big| \alpha_0 - 1, \alpha_0 \xi_i \right), \quad i = 1, \dots, d \quad (6) σi2∼IG(σi2 α0−1,α0ξi),i=1,...,d(6)

其中， α 0 \alpha_0 α0 是控制分布形状的超参数， ξ i \xi_i ξi 表示通过训练数据使用高斯滤波器估计的噪声方差。

根据各向异性高斯模糊的性质，给定核大小，模糊核 K K K 可以由协方差矩阵 Σ \Sigma Σ 唯一确定。因此，模糊核可以表示为：

k i j = 1 2 π λ 1 λ 2 1 − ρ 2 exp ⁡ ( − 1 2 S T Σ − 1 S ) k_{ij} = \frac{1}{2\pi \lambda_1 \lambda_2 \sqrt{1 - \rho^2}} \exp \left( -\frac{1}{2} S^T \Sigma^{-1} S \right) kij=2πλ1λ21−ρ2 1exp(−21STΣ−1S)
Σ = ( λ 1 2 λ 1 λ 2 ρ λ 1 λ 2 ρ λ 2 2 ) ( 7 ) \Sigma = \begin{pmatrix} \lambda_1^2 & \lambda_1 \lambda_2 \rho \\ \lambda_1 \lambda_2 \rho & \lambda_2^2 \end{pmatrix} \quad (7) Σ=(λ12λ1λ2ρλ1λ2ρλ22)(7)

其中， ρ \rho ρ 表示皮尔逊相关系数， λ 1 \lambda_1 λ1 和 λ 2 \lambda_2 λ2 分别表示高斯分布在两个方向上的方差。 S S S 表示模糊核作用的空间点坐标，当核大小为 ( 2 r + 1 ) × ( 2 r + 1 ) (2r + 1) \times (2r + 1) (2r+1)×(2r+1) 时， S S S 的范围为 ([-r, r])。

为了便于后续的变分推断，我们将协方差矩阵中的三个变量表示为：

Λ = { λ 1 2 , λ 2 2 , ρ } ( 8 ) \Lambda = \left\{ \lambda_1^2, \lambda_2^2, \rho \right\} \quad (8) Λ={λ12,λ22,ρ}(8)

模糊核 K K K 的最终概率分布可以表示为：

K = G ( Λ ) K = G(\Lambda) K=G(Λ)
Λ = N ( ρ ∣ ρ ^ , r 0 2 ) ∏ l = 1 2 I G ( λ l 2 ∣ κ 0 − 1 , κ 0 ∗ λ ^ l 2 ) ( 9 ) \Lambda = \mathcal{N} \left( \rho \big| \hat{\rho}, r_0^2 \right) \prod_{l=1}^2 \mathcal{IG} \left( \lambda_l^2 \big| \kappa_0 - 1, \kappa_0 * \hat{\lambda}_l^2 \right) \quad (9) Λ=N(ρ ρ^,r02)l=1∏2IG(λl2 κ0−1,κ0∗λ^l2)(9)

其中， G ( ⋅ ) G(\cdot) G(⋅) 表示各向异性高斯分布，类似于公式 (6) 中的超参数 α 0 \alpha_0 α0。 r 0 r_0 r0 是控制 ρ \rho ρ 和 ρ ^ \hat{\rho} ρ^ 之间区别的超参数。 κ 0 \kappa_0 κ0 也是一个超参数，用于确定逆伽马分布的形状。 ρ ^ \hat{\rho} ρ^、 λ ^ 1 2 \hat{\lambda}_1^2 λ^12 和 λ ^ 2 2 \hat{\lambda}_2^2 λ^22 在生成模拟数据集时提供。

为了从全色图像 P P P 中估计空间信息，同时确保低分辨率多光谱图像的特殊特性不受影响，全色图像 P P P 与融合结果 F F F 之间的物理关系通过梯度建模：

∇ P = ∇ F + Ω \nabla P = \nabla F + \Omega ∇P=∇F+Ω
∇ F = ∑ i = 1 N t i ∇ f i ( 10 ) \nabla F = \sum_{i=1}^N t_i \nabla f_i \quad (10) ∇F=i=1∑Nti∇fi(10)

其中， Ω \Omega Ω 表示用于表征 P P P 和 F F F 梯度差异的高斯噪声。 ∇ \nabla ∇ 表示使用 Sobel 算子计算图像梯度的操作。 N N N 表示 F F F 的谱带数量， f i f_i fi 表示 F F F 的第 i i i 个谱带， t i t_i ti 表示权重参数。 t i t_i ti 的设置需要基于应用场景的特征特性，即对空间细节特征响应更强的谱带需要被重点关注。为了增强模型的泛化能力，我们假设多光谱图像的四个谱带对图像梯度的贡献相等，因此将权重参数 t i t_i ti 设置为 0.25。

根据公式 (10)，观测变量 P P P 的分布按像素建模为：

∇ P i ∼ N ( ∇ P i ∣ ∇ F i , δ i 2 ) , i = 1 , ... , n ( 11 ) \nabla P_i ∼ \mathcal{N} \left( \nabla P_i \big| \nabla F_i, \delta_i^2 \right), \quad i = 1, \dots, n \quad (11) ∇Pi∼N(∇Pi ∇Fi,δi2),i=1,...,n(11)

其中， δ i 2 \delta_i^2 δi2 表示高斯分布的方差。类似于多光谱图像建模中的先验选择方法，我们选择高斯分布和逆伽马分布分别作为潜在变量 ∇ F i \nabla F_i ∇Fi 和 δ i 2 \delta_i^2 δi2 的共轭先验：

∇ F i ∼ N ( ∇ F i ∣ y i , ε 1 2 ) , i = 1 , ... , n ( 12 ) \nabla F_i ∼ \mathcal{N} \left( \nabla F_i \big| y_i, \varepsilon_1^2 \right), \quad i = 1, \dots, n \quad (12) ∇Fi∼N(∇Fi yi,ε12),i=1,...,n(12)
δ i 2 ∼ I G ( δ i 2 ∣ α 1 − 1 , α 1 γ i ) , i = 1 , ... , n ( 13 ) \delta_i^2 ∼ \mathcal{IG} \left( \delta_i^2 \big| \alpha_1 - 1, \alpha_1 \gamma_i \right), \quad i = 1, \dots, n \quad (13) δi2∼IG(δi2 α1−1,α1γi),i=1,...,n(13)

其中， y i y_i yi 是训练数据集中高分辨率多光谱图像的梯度。 ε 1 2 \varepsilon_1^2 ε12 是一个超参数，用于捕捉 y i y_i yi 和 ∇ F i \nabla F_i ∇Fi 之间的差距，其值极小。 α 1 \alpha_1 α1 是控制分布形状的超参数， γ i \gamma_i γi 表示使用与 ξ i \xi_i ξi 相同方法估计的噪声方差。

B. Forms of Variational Posterior

根据上述建模过程，所有需要求解的隐藏变量为 F F F、 ∇ F \nabla F ∇F、 Λ \Lambda Λ、 σ \sigma σ 和 δ \delta δ，我们将这些变量记为潜在变量集合 Θ = { F , ∇ F , Λ , σ , δ } \Theta = \{F, \nabla F, \Lambda, \sigma, \delta\} Θ={F,∇F,Λ,σ,δ}。此外，我们可以得到需要融合的观测变量 P P P 和低分辨率多光谱图像 M M M，根据贝叶斯公式，需要求解的后验概率分布为：
P ( Θ ∣ M , P ) = P ( M , P ∣ Θ ) P ( Θ ) P ( M , P ) ( 14 ) P(\Theta | M, P) = \frac{P(M, P | \Theta) P(\Theta)}{P(M, P)} \quad (14) P(Θ∣M,P)=P(M,P)P(M,P∣Θ)P(Θ)(14)

公式 (14) 右侧的分母是关于观测变量的概率分布，由于这个联合概率分布通常难以求解，我们采用变分推断 来获得近似解，通过构建一个近似后验分布 q ( Ω ∣ M , P ) q(\Omega | M, P) q(Ω∣M,P) 并优化两个分布之间的距离，最终得到近似解。我们采用KL散度 来衡量两个分布之间的距离：
KL [ P ( X ) ∥ Q ( X ) ] = ∑ x ∈ X P ( x ) log ⁡ P ( x ) Q ( x ) ( 15 ) \text{KL}[P(X) \| Q(X)] = \sum_{x \in X} P(x) \log \frac{P(x)}{Q(x)} \quad (15) KL[P(X)∥Q(X)]=x∈X∑P(x)logQ(x)P(x)(15)

假设 M M M 和 P P P 彼此独立，因此公式 (14) 分子中的两项可以分别重写为：
P ( M , P ∣ Θ ) = P ( M ∣ F , Λ , σ 2 ) P ( P ∣ ∇ F , δ 2 ) P(M, P | \Theta) = P(M | F, \Lambda, \sigma^2) P(P | \nabla F, \delta^2) P(M,P∣Θ)=P(M∣F,Λ,σ2)P(P∣∇F,δ2)
P ( Θ ) = P ( F ) P ( Λ ) P ( σ 2 ) P ( ∇ F ) P ( δ 2 ) ( 16 ) P(\Theta) = P(F) P(\Lambda) P(\sigma^2) P(\nabla F) P(\delta^2) \quad (16) P(Θ)=P(F)P(Λ)P(σ2)P(∇F)P(δ2)(16)

根据公式 (16)，用于近似后验分布 p ( Θ ∣ M , P ) p(\Theta | M, P) p(Θ∣M,P) 的变分后验分布 q ( Θ ∣ M , P ) q(\Theta | M, P) q(Θ∣M,P) 可以自然地分为两部分：
q ( Θ ∣ M , P ) = q ( F , σ 2 , Λ ∣ M ) q ( ∇ F , δ 2 ∣ P ) ( 17 ) q(\Theta | M, P) = q(F, \sigma^2, \Lambda | M) q(\nabla F, \delta^2 | P) \quad (17) q(Θ∣M,P)=q(F,σ2,Λ∣M)q(∇F,δ2∣P)(17)

对于公式 (17) 的第一项，类似于均值场变分推断方法 ，我们假设潜在变量是独立的，因此有：
q ( F , σ 2 , Λ ∣ M ) = q ( F ∣ M ) q ( σ 2 ∣ M ) q ( Θ ∣ M ) ( 18 ) q(F, \sigma^2, \Lambda | M) = q(F | M) q(\sigma^2 | M) q(\Theta | M) \quad (18) q(F,σ2,Λ∣M)=q(F∣M)q(σ2∣M)q(Θ∣M)(18)

根据公式 (5)、(6) 和 (9) 中的共轭先验，潜在变量的变分先验可以建模如下：
q ( F ∣ M ) = ∏ i = 1 n N ( F i ∣ μ i ( M ; W R ) , ε 0 2 ) q(F | M) = \prod_{i=1}^n \mathcal{N}(F_i | \mu_i(M; W_R), \varepsilon_0^2) q(F∣M)=i=1∏nN(Fi∣μi(M;WR),ε02)
q ( σ 2 ∣ M ) = ∏ i = 1 d I G ( σ i 2 ∣ α 0 − 1 , α 0 β i ( M ; W N ) ) q(\sigma^2 | M) = \prod_{i=1}^d \mathcal{IG}(\sigma_i^2 | \alpha_0 - 1, \alpha_0 \beta_i(M; W_N)) q(σ2∣M)=i=1∏dIG(σi2∣α0−1,α0βi(M;WN))
q ( Λ ∣ M ) = N ( ρ ∣ m ( M ; W K ) , r 0 2 ) × ∏ l = 1 2 I G ( λ l 2 ∣ κ 0 − 1 , κ 0 ∗ η l 2 ( M ; W K ) ) ( 19 ) q(\Lambda | M) = \mathcal{N}(\rho | m(M; W_K), r_0^2) \times \prod_{l=1}^2 \mathcal{IG}(\lambda_l^2 | \kappa_0 - 1, \kappa_0 * \eta_l^2(M; W_K)) \quad (19) q(Λ∣M)=N(ρ∣m(M;WK),r02)×l=1∏2IG(λl2∣κ0−1,κ0∗ηl2(M;WK))(19)

这里， μ \mu μ、 β \beta β、 ρ \rho ρ 和 η \eta η 是由融合网络 R-Net、低分辨率多光谱图像噪声估计网络 N-Net 和低分辨率多光谱图像核估计网络 K-Net 估计的变分先验参数。公式 (19) 中的 W R W_R WR、 W N W_N WN 和 W K W_K WK 是通过低分辨率多光谱图像 M M M 训练的网络参数，能够预测潜在变量。

类似地，对于公式 (17) 的第二项，我们仍然假设潜在变量是独立的，变分后验可以建模如下：
q ( ∇ F , δ 2 ∣ P ) = q ( ∇ F ∣ P ) q ( δ 2 ∣ P ) ( 20 ) q(\nabla F, \delta^2 | P) = q(\nabla F | P) q(\delta^2 | P) \quad (20) q(∇F,δ2∣P)=q(∇F∣P)q(δ2∣P)(20)

结合公式 (12) 和 (13)，变分后验可以表示为：
q ( ∇ F ∣ P ) = ∏ i = 1 n N ( ∇ F i ∣ u i ( P ; W R ) , ε 1 2 ) q(\nabla F | P) = \prod_{i=1}^n \mathcal{N}(\nabla F_i | u_i(P; W_R), \varepsilon_1^2) q(∇F∣P)=i=1∏nN(∇Fi∣ui(P;WR),ε12)
q ( δ 2 ∣ P ) = ∏ i = 1 n I G ( δ i 2 ∣ a i ( P ; W S ) , b i ( P ; W S ) ) ( 21 ) q(\delta^2 | P) = \prod_{i=1}^n \mathcal{IG}(\delta_i^2 | a_i(P; W_S), b_i(P; W_S)) \quad (21) q(δ2∣P)=i=1∏nIG(δi2∣ai(P;WS),bi(P;WS))(21)

这里， u i u_i ui、 a i a_i ai 和 b i b_i bi 是由融合网络 R-Net 和全色图像噪声估计网络 S-Net 估计的变分先验参数。 W S W_S WS 表示通过全色图像 P P P 和 S-Net 训练的参数。

C. Variational Lower Bound for Joint Posterior Distribution

为了方便描述公式，在接下来的计算中，我们将 μ i ( M ; W R ) \mu_i(M; W_R) μi(M;WR)、 β i ( M ; W N ) \beta_i(M; W_N) βi(M;WN)、 m ( M ; W K ) m(M; W_K) m(M;WK)、 η l 2 ( M ; W K ) \eta_l^2(M; W_K) ηl2(M;WK)、 u i ( P ; W R ) u_i(P; W_R) ui(P;WR)、 a i ( P ; W S ) a_i(P; W_S) ai(P;WS) 和 b i ( P ; W S ) b_i(P; W_S) bi(P;WS) 分别简化为 μ i \mu_i μi、 β i \beta_i βi、 m m m、 η l 2 \eta_l^2 ηl2、 u i u_i ui、 a i a_i ai 和 b i b_i bi。根据变分推断的思想 [49]，我们可以将观测变量 M M M 和 P P P 的似然表示为以下形式：
log ⁡ p ( M , P ) = L ( F , σ , Λ ; M ) + L ( ∇ F , δ 2 ; P ) + D KL [ q ( F , σ 2 , Λ ∣ M ) ∥ p ( F , σ 2 , Λ ∣ M ) ] + D KL [ q ( ∇ F , δ 2 ∣ P ) ∥ p ( ∇ F , δ 2 ∣ P ) ] ( 22 ) \log p(M, P) = \mathcal{L}(F, \sigma, \Lambda; M) + \mathcal{L}(\nabla F, \delta^2; P) + D_{\text{KL}}[q(F, \sigma^2, \Lambda | M) \| p(F, \sigma^2, \Lambda | M)] + D_{\text{KL}}[q(\nabla F, \delta^2 | P) \| p(\nabla F, \delta^2 | P)] \quad (22) logp(M,P)=L(F,σ,Λ;M)+L(∇F,δ2;P)+DKL[q(F,σ2,Λ∣M)∥p(F,σ2,Λ∣M)]+DKL[q(∇F,δ2∣P)∥p(∇F,δ2∣P)](22)

其中， L \mathcal{L} L 表示变分证据下界（ELBO） ：
L ( F , σ , Λ ; M ) = E q [ log ⁡ p ( M ∣ F , σ 2 , Λ ) p ( F ) p ( σ 2 ) p ( Λ ) − log ⁡ q ( F , σ 2 , Λ ∣ M ) ] L ( ∇ F , δ 2 ; P ) = E q [ log ⁡ p ( P ∣ ∇ F , δ 2 ) p ( ∇ F ) p ( δ 2 ) − log ⁡ q ( ∇ F , δ 2 ∣ P ) ] ( 23 ) \mathcal{L}(F, \sigma, \Lambda; M) = \mathbb{E}_q \left[ \log p(M | F, \sigma^2, \Lambda) p(F) p(\sigma^2) p(\Lambda) - \log q(F, \sigma^2, \Lambda | M) \right] \\ \mathcal{L}(\nabla F, \delta^2; P) = \mathbb{E}_q \left[ \log p(P | \nabla F, \delta^2) p(\nabla F) p(\delta^2) - \log q(\nabla F, \delta^2 | P) \right] \quad (23) L(F,σ,Λ;M)=Eq[logp(M∣F,σ2,Λ)p(F)p(σ2)p(Λ)−logq(F,σ2,Λ∣M)]L(∇F,δ2;P)=Eq[logp(P∣∇F,δ2)p(∇F)p(δ2)−logq(∇F,δ2∣P)](23)

考虑到 log ⁡ p ( M , P ) \log p(M, P) logp(M,P) 是一个常数，且 KL 散度具有非负性，最小化真实后验分布与变分后验分布之间距离的问题可以转化为最大化变分证据下界（ELBO）的问题。结合公式 (18) 和 (20)，变分 ELBO 可以重写为以下形式：
L ( F , σ , Λ ; M ) = E q ( F , σ , Λ ; M ) [ log ⁡ p ( M ∣ F , σ 2 , Λ ) ] − D KL [ q ( F ∣ M ) ∥ p ( F ) ] − D KL [ q ( σ 2 ∣ M ) ∥ p ( σ 2 ) ] − D KL [ q ( Λ ∣ M ) ∥ p ( Λ ) ] ( 24 ) \mathcal{L}(F, \sigma, \Lambda; M) = \mathbb{E}{q(F, \sigma, \Lambda; M)} \left[ \log p(M | F, \sigma^2, \Lambda) \right] - D{\text{KL}}[q(F | M) \| p(F)] - D_{\text{KL}}[q(\sigma^2 | M) \| p(\sigma^2)] - D_{\text{KL}}[q(\Lambda | M) \| p(\Lambda)] \quad (24) L(F,σ,Λ;M)=Eq(F,σ,Λ;M)[logp(M∣F,σ2,Λ)]−DKL[q(F∣M)∥p(F)]−DKL[q(σ2∣M)∥p(σ2)]−DKL[q(Λ∣M)∥p(Λ)](24)
L ( ∇ F , δ 2 ; P ) = E q ( ∇ F , δ 2 ∣ P ) [ log ⁡ p ( P ∣ ∇ F , δ 2 ) ] − D KL [ q ( ∇ F ∣ P ) ∥ p ( ∇ F ) ] − D KL [ q ( δ 2 ∣ P ) ∥ p ( δ 2 ) ] ( 25 ) \mathcal{L}(\nabla F, \delta^2; P) = \mathbb{E}{q(\nabla F, \delta^2 | P)} \left[ \log p(P | \nabla F, \delta^2) \right] - D{\text{KL}}[q(\nabla F | P) \| p(\nabla F)] - D_{\text{KL}}[q(\delta^2 | P) \| p(\delta^2)] \quad (25) L(∇F,δ2;P)=Eq(∇F,δ2∣P)[logp(P∣∇F,δ2)]−DKL[q(∇F∣P)∥p(∇F)]−DKL[q(δ2∣P)∥p(δ2)](25)

通过使用重参数化技巧 [50] 和采样技术 [51]，我们可以将公式 (24) 和 (25) 的两部分求解如下：
E q ( F , σ , Λ ; M ) [ log ⁡ p ( M ∣ F , σ 2 , Λ ) ] ≈ − 1 2 ∑ i = 1 d { log ⁡ σ ~ i + w i ( M i − [ ( F ~ ∗ k ~ ) ↓ s ] i ) 2 } ( 26 ) \mathbb{E}{q(F, \sigma, \Lambda; M)} \left[ \log p(M | F, \sigma^2, \Lambda) \right] \approx -\frac{1}{2} \sum{i=1}^d \left\{ \log \tilde{\sigma}_i + w_i \left( M_i - [(\tilde{F} * \tilde{k}) \downarrow_s]_i \right)^2 \right\} \quad (26) Eq(F,σ,Λ;M)[logp(M∣F,σ2,Λ)]≈−21i=1∑d{logσ~i+wi(Mi−[(F~∗k~)↓s]i)2}(26)

其中， F ~ \tilde{F} F~、 σ ~ \tilde{\sigma} σ~ 和 k ~ \tilde{k} k~ 是从 q ( F ∣ M ) q(F | M) q(F∣M)、 q ( σ 2 ∣ M ) q(\sigma^2 | M) q(σ2∣M) 和 q ( Λ ∣ M ) q(\Lambda | M) q(Λ∣M) 中重新采样的。 w i = ( 1 / σ ~ i ) w_i = (1 / \tilde{\sigma}_i) wi=(1/σ~i)， k ~ i = G ( Λ ~ ) \tilde{k}_i = G(\tilde{\Lambda}) k~i=G(Λ~)，其中 G ( ⋅ ) G(\cdot) G(⋅) 在公式 (9) 中给出。

公式 (24) 和 (25) 中的其余部分可以解析计算如下：
D KL [ q ( F ∣ M ) ∥ p ( F ) ] = ∑ i = 1 n ( μ i − x i ) 2 2 ε 0 2 ( 27 ) D_{\text{KL}}[q(F | M) \| p(F)] = \sum_{i=1}^n \frac{(\mu_i - x_i)^2}{2 \varepsilon_0^2} \quad (27) DKL[q(F∣M)∥p(F)]=i=1∑n2ε02(μi−xi)2(27)
D KL [ q ( σ 2 ∣ M ) ∥ p ( σ 2 ) ] = ∑ i = 1 d α 0 ( ξ i β i + log ⁡ β i ξ i − 1 ) ( 28 ) D_{\text{KL}}[q(\sigma^2 | M) \| p(\sigma^2)] = \sum_{i=1}^d \alpha_0 \left( \frac{\xi_i}{\beta_i} + \log \frac{\beta_i}{\xi_i} - 1 \right) \quad (28) DKL[q(σ2∣M)∥p(σ2)]=i=1∑dα0(βiξi+logξiβi−1)(28)
D KL [ q ( Λ ∣ M ) ∥ p ( Λ ) ] = ( m − ρ ^ ) 2 2 r 0 2 + ∑ l = 1 2 κ 0 ( λ ^ l η l + log ⁡ η l λ ^ l − 1 ) ( 29 ) D_{\text{KL}}[q(\Lambda | M) \| p(\Lambda)] = \frac{(m - \hat{\rho})^2}{2 r_0^2} + \sum_{l=1}^2 \kappa_0 \left( \frac{\hat{\lambda}l}{\eta_l} + \log \frac{\eta_l}{\hat{\lambda}l} - 1 \right) \quad (29) DKL[q(Λ∣M)∥p(Λ)]=2r02(m−ρ^)2+l=1∑2κ0(ηlλ^l+logλ^lηl−1)(29)
E q ( ∇ F , δ 2 ∣ P ) [ log ⁡ p ( P ∣ ∇ F , δ 2 ) ] = ∑ i = 1 n { − 1 2 log ⁡ 2 π − 1 2 ( log ⁡ b i − ψ ( a i ) ) − a i 2 b i ( ( ∇ P i − u i ) 2 + ε 1 2 ) } ( 30 ) \mathbb{E}{q(\nabla F, \delta^2 | P)} \left[ \log p(P | \nabla F, \delta^2) \right] = \sum{i=1}^n \left\{ -\frac{1}{2} \log 2\pi - \frac{1}{2} (\log b_i - \psi(a_i)) - \frac{a_i}{2 b_i} \left( (\nabla P_i - u_i)^2 + \varepsilon_1^2 \right) \right\} \quad (30) Eq(∇F,δ2∣P)[logp(P∣∇F,δ2)]=i=1∑n{−21log2π−21(logbi−ψ(ai))−2biai((∇Pi−ui)2+ε12)}(30)
D KL [ q ( ∇ F ∣ P ) ∥ p ( ∇ F ) ] = ∑ i = 1 n ( u i − y i ) 2 2 ε 1 2 ( 31 ) D_{\text{KL}}[q(\nabla F | P) \| p(\nabla F)] = \sum_{i=1}^n \frac{(u_i - y_i)^2}{2 \varepsilon_1^2} \quad (31) DKL[q(∇F∣P)∥p(∇F)]=i=1∑n2ε12(ui−yi)2(31)
D KL [ q ( δ 2 ∣ P ) ∥ p ( δ 2 ) ] = ∑ i = 1 n { ( a i − α 1 + 1 ) ψ ( a i ) + ( log ⁡ Γ ( α 1 − 1 ) − log ⁡ Γ ( a i ) ) + ( α 1 − 1 ) ( log ⁡ b i − log ⁡ α 1 γ i ) + a i ( α 1 γ i b i − 1 ) } ( 32 ) D_{\text{KL}}[q(\delta^2 | P) \| p(\delta^2)] = \sum_{i=1}^n \left\{ (a_i - \alpha_1 + 1) \psi(a_i) + \left( \log \Gamma(\alpha_1 - 1) - \log \Gamma(a_i) \right) + (\alpha_1 - 1) (\log b_i - \log \alpha_1 \gamma_i) + a_i \left( \frac{\alpha_1 \gamma_i}{b_i} - 1 \right) \right\} \quad (32) DKL[q(δ2∣P)∥p(δ2)]=i=1∑n{(ai−α1+1)ψ(ai)+(logΓ(α1−1)−logΓ(ai))+(α1−1)(logbi−logα1γi)+ai(biα1γi−1)}(32)

其中， Γ ( ⋅ ) \Gamma(\cdot) Γ(⋅) 和 ψ ( ⋅ ) \psi(\cdot) ψ(⋅) 分别表示 Gamma 函数和 Digamma 函数。

至此，我们已经完成了全色锐化的整个变分推断过程。最终，求解后验分布的问题被转化为最大化 ELBO 的问题，这可以通过神经网络来解决，其中 ELBO 的倒数被用作网络的损失函数，通过学习训练数据的特征来优化模型。

D. Network Architecture

我们提出的 VBPN（Variational Blind Pansharpening Network） 的整体设计如图 2 所示。该网络包含四个子网络，分别用于退化估计和图像融合，这些子网络由变分推断结果指导。图 3 展示了我们提出的 VBPN 的详细架构。以下是各子网络的详细说明：

N-Net：低分辨率多光谱图像（LR-MS）噪声参数估计

图 3(a) 展示了 N-Net 的网络架构，用于估计低分辨率多光谱图像的噪声参数。我们采用了类似 DnCNN [52] 的网络结构，包含五层卷积和 Leaky-ReLU 操作（输入层和输出层除外）。该网络以低分辨率多光谱图像作为输入，输出后验分布 q ( σ 2 ∣ M ) q(\sigma^2 | M) q(σ2∣M) 的参数。

K-Net：低分辨率多光谱图像模糊核参数估计

图 3(b) 展示了 K-Net 的网络架构，用于估计低分辨率多光谱图像的模糊核参数。该网络首先使用卷积操作提取浅层特征，然后通过八层级联的 通道注意力模块（CAB） [53] 提取多通道特征，最后通过卷积操作输出结果。该网络输出后验分布 q ( Λ ∣ M ) q(\Lambda | M) q(Λ∣M) 的参数。

S-Net：全色图像（PAN）噪声参数估计

图 3(c) 展示了 S-Net 的网络架构，用于估计全色图像的噪声参数。该网络同样采用了 DnCNN 结构，包含 16 层卷积和 Leaky-ReLU 操作。该网络以全色图像作为输入，输出后验分布 q ( δ 2 ∣ P ) q(\delta^2 | P) q(δ2∣P) 的参数。

R-Net：图像融合网络

图 3(d) 展示了 R-Net 的网络架构，我们选择了 U-Net [54] 结构作为主干网络，包含三次下采样和上采样操作。该网络以低分辨率多光谱图像和全色图像作为输入，输出融合后的高分辨率多光谱图像 F F F。下采样和上采样操作分别通过卷积和转置卷积实现。

由于我们的方法主要旨在验证变分推断框架在盲图像全色锐化中的有效性，因此并未专注于设计复杂的网络结构，而是选择了图像恢复领域常用的网络。因此，融合网络也可以替换为其他更先进的现有网络。图 3(e) 展示了 K-Net 中使用的 CAB 架构以及 R-Net 中的 FE 层。

训练过程

如图 2 所示，每个网络使用变分推断结果中的 KL散度项 作为损失函数，分别针对每个共轭先验进行优化。每个网络的最终估计结果被输入到期望项中。由于期望项包含所有潜在变量，因此该项可以用于约束并同步指导四个网络的训练。

VBPN 的整体设计包括四个子网络：

N-Net：估计低分辨率多光谱图像的噪声参数。

K-Net：估计低分辨率多光谱图像的模糊核参数。

S-Net：估计全色图像的噪声参数。

R-Net：实现图像融合，生成高分辨率多光谱图像。

E. Loss Function

在完成变分推断建模过程和网络设计后，我们充分利用了变分推断的理论指导和神经网络的数据驱动特性，将变分推断的结果作为网络的损失函数，以指导网络训练。为了确保网络能够从每个子网络中分别提取低分辨率多光谱图像（LR-MS）和全色图像（PAN）的特征，我们重新分析了变分证据下界（ELBO），具体如下：

多光谱图像噪声参数相关项

公式 (24) 中的第三项是多光谱图像噪声参数相关项，用于指导 N-Net 的训练：
L N = D KL [ q ( σ 2 ∣ M ) ∥ p ( σ 2 ) ] ( 33 ) L_N = D_{\text{KL}}[q(\sigma^2 | M) \| p(\sigma^2)] \quad (33) LN=DKL[q(σ2∣M)∥p(σ2)](33)

多光谱图像模糊参数相关项

公式 (24) 中的第四项是多光谱图像模糊参数相关项，用于指导 K-Net 的训练：
L K = D KL [ q ( Θ ∣ M ) ∥ p ( Θ ) ] ( 34 ) L_K = D_{\text{KL}}[q(\Theta | M) \| p(\Theta)] \quad (34) LK=DKL[q(Θ∣M)∥p(Θ)](34)

全色图像噪声参数相关项

公式 (25) 展示了全色图像 P P P 的 ELBO，其中第三项用于约束噪声的分布，因此能够指导 S-Net 的训练：
L S = D KL [ q ( δ 2 ∣ P ) ∥ p ( δ 2 ) ] ( 35 ) L_S = D_{\text{KL}}[q(\delta^2 | P) \| p(\delta^2)] \quad (35) LS=DKL[q(δ2∣P)∥p(δ2)](35)

融合结果分布约束项

公式 (24) 和 (25) 中的第二项约束了融合结果的分布与输入的低分辨率多光谱图像 M M M 和全色图像 P P P 之间的关系，用于指导 R-Net 的训练：
L R = D KL [ q ( F ∣ M ) ∥ p ( F ) ] + D KL [ q ( ∇ F ∣ P ) ∥ p ( ∇ F ) ] ( 36 ) L_R = D_{\text{KL}}[q(F | M) \| p(F)] + D_{\text{KL}}[q(\nabla F | P) \| p(\nabla F)] \quad (36) LR=DKL[q(F∣M)∥p(F)]+DKL[q(∇F∣P)∥p(∇F)](36)

期望项

公式 (24) 和 (25) 中的第一项是期望项，包含了所有需要求解的隐藏变量的信息，用于统一四个子网络，实现参数传递和联合训练。通过期望项，N-Net 、S-Net 、K-Net 和 R-Net 被协同训练，确保模型能够考虑全局结构信息，而不仅仅是拟合训练数据：
L MIX = − E q ( F , σ , Θ ; M ) [ log ⁡ p ( M ∣ F , σ 2 , Θ ) ] − E q ( ∇ F , δ 2 ∣ P ) [ log ⁡ p ( P ∣ ∇ F , δ 2 ) ] ( 37 ) L_{\text{MIX}} = -\mathbb{E}{q(F, \sigma, \Theta; M)} \left[ \log p(M | F, \sigma^2, \Theta) \right] - \mathbb{E}{q(\nabla F, \delta^2 | P)} \left[ \log p(P | \nabla F, \delta^2) \right] \quad (37) LMIX=−Eq(F,σ,Θ;M)[logp(M∣F,σ2,Θ)]−Eq(∇F,δ2∣P)[logp(P∣∇F,δ2)](37)

最终，我们可以将网络的总损失函数表示为：
L total = L N + L K + L S + L R + L MIX ( 38 ) L_{\text{total}} = L_N + L_K + L_S + L_R + L_{\text{MIX}} \quad (38) Ltotal=LN+LK+LS+LR+LMIX(38)

（33）-（37）的具体形式可以在（26）-（32）中找到。

over. 接下来就是实验了