论文解读：SFINet 空间-频率统一学习框架用于多模态图像融合

论文解读

SFINet：面向多模态图像融合的空间-频率统一学习框架

论文：Man Zhou 等，A General Spatial-Frequency Learning Framework for Multimodal Image Fusion ，IEEE TPAMI 2025。

关键词：多模态图像融合、全色锐化、深度超分辨率、傅里叶变换、空间-频率学习、可逆神经算子。

核心观点

这篇论文的出发点很直接：全色锐化和 RGB 引导深度超分辨率本质上都是"用高分辨率引导模态补齐低分辨率目标模态的高频信息"。既然退化过程天然发生在频率域，只在空间域用卷积学习映射是不完整的。作者提出 SFINet / SFINet++，把空间域的局部纹理建模、频率域的全局上下文建模，以及二者之间的交互补偿放进一个统一框架。

研究背景与问题定义

多模态图像融合的典型目标是：输入一个低分辨率目标图像和一个高分辨率引导图像，输出兼具目标模态语义/光谱一致性与引导模态空间细节的高分辨率结果。论文重点验证了两个代表性任务：

Pan-sharpening：用高分辨率 PAN 图像引导低分辨率 MS 图像，恢复高空间分辨率多光谱影像。
Depth image super-resolution：用高分辨率 RGB 图像引导低分辨率深度图，恢复边界清晰的高分辨率深度图。

过去很多深度方法主要在空间域操作，用卷积堆叠学习局部映射。但下采样会直接丢失高频成分，单纯依赖空间域像素损失，容易出现纹理细节不足、边界模糊、全局频率结构恢复不稳定等问题。

图 1 是这篇论文的动机核心。作者把全色锐化和深度超分辨率都放到 DFT 频域里看：相位更对应结构与边缘，振幅更对应频率能量分布。PAN/RGB 通常提供更强的高频结构信息，MS/depth 则保留目标模态的语义或光谱属性。因此，融合模型需要同时关注空间域局部细节和频率域全局结构。

方法框架概览

SFINet 的基本输入可以抽象成两类：低分辨率目标模态经过上采样后的特征，以及高分辨率引导模态特征。网络由多个 SFIB（Spatial-Frequency Information Integration Block）级联构成，每个 SFIB 都包含三部分：

Frequency Domain Branch, FD：用傅里叶变换处理振幅和相位，获得全局频率表征。
Spatial Domain Branch, SD：用可逆神经算子建模局部空间信息，保留细节与跨模态信息。
Dual-domain Interaction, DI：让空间与频率表征互补，先补偿再融合。

对全色锐化任务，论文将上采样后的 MS 图像记作 MMM，PAN 特征记作 FpF_pFp，网络输出为：

H=SFIBs⁡(M,Fp)+M H = \operatorname{SFIBs}(M, F_p) + M H=SFIBs(M,Fp)+M

这里的残差连接有两个作用：一是让模型专注于补充缺失细节，二是保持目标模态的基础光谱/语义信息不被过度改写。

关键公式与机制拆解

1. 图像傅里叶变换

给定图像或特征图 x∈RH×W×Cx \in \mathbb{R}^{H \times W \times C}x∈RH×W×C，对每个通道独立做二维 DFT：

F(x)(u,v)=1HW∑h=0H−1∑w=0W−1x(h,w)e−j2π(hHu+wWv) \mathcal{F}(x)(u,v)=\frac{1}{\sqrt{HW}}\sum_{h=0}^{H-1}\sum_{w=0}^{W-1}x(h,w)e^{-j2\pi(\frac{h}{H}u+\frac{w}{W}v)} F(x)(u,v)=HW 1h=0∑H−1w=0∑W−1x(h,w)e−j2π(Hhu+Wwv)

频域复数可以拆成实部 R(x)R(x)R(x) 和虚部 I(x)I(x)I(x)，进而得到振幅和相位：

A(x)(u,v)=R2(x)(u,v)+I2(x)(u,v) A(x)(u,v)=\sqrt{R^2(x)(u,v)+I^2(x)(u,v)} A(x)(u,v)=R2(x)(u,v)+I2(x)(u,v)

P(x)(u,v)=arctan⁡(I(x)(u,v)R(x)(u,v)) P(x)(u,v)=\arctan\left(\frac{I(x)(u,v)}{R(x)(u,v)}\right) P(x)(u,v)=arctan(R(x)(u,v)I(x)(u,v))

论文把这个分解作为全局信息建模的入口：振幅分支关注频率能量，相位分支关注结构排列。

2. 频率分支：融合振幅与相位

对于第 iii 个 SFIB，设 PAN/RGB 引导特征为 FpiF_p^iFpi，MS/depth 目标特征为 FmsiF_{ms}^iFmsi。先分别做傅里叶变换：

A(Fpi),P(Fpi)=F(Fpi) A(F_p^i), P(F_p^i)=\mathcal{F}(F_p^i) A(Fpi),P(Fpi)=F(Fpi)

A(Fmsi),P(Fmsi)=F(Fmsi) A(F_{ms}^i), P(F_{ms}^i)=\mathcal{F}(F_{ms}^i) A(Fmsi),P(Fmsi)=F(Fmsi)

随后用两个操作 OA(⋅)O_A(\cdot)OA(⋅) 和 OP(⋅)O_P(\cdot)OP(⋅) 分别融合振幅和相位：

A(Fpmi)=OA(Cat⁡ $A(Fpi),A(Fmsi)$ ) A(F_{pm}^i)=O_A(\operatorname{Cat} $A(F_p\^i), A(F_{ms}\^i)$ ) A(Fpmi)=OA(Cat $A(Fpi),A(Fmsi)$ )

P(Fpmi)=OP(Cat⁡ $P(Fpi),P(Fmsi)$ ) P(F_{pm}^i)=O_P(\operatorname{Cat} $P(F_p\^i), P(F_{ms}\^i)$ ) P(Fpmi)=OP(Cat $P(Fpi),P(Fmsi)$ )

最后通过逆傅里叶变换回到空间表示：

Ffrei=F−1(A(Fpmi),P(Fpmi)) F_{fre}^i=\mathcal{F}^{-1}(A(F_{pm}^i), P(F_{pm}^i)) Ffrei=F−1(A(Fpmi),P(Fpmi))

这个分支提供的是 image-wide receptive field，也就是空间卷积很难高效覆盖的全局频率上下文。

3. 空间分支：可逆神经算子保留局部细节

SFINet++ 相比 SFINet 的关键改进，是把原始空间分支里的普通卷积单元替换成 information-lossless invertible neural operator。对于第 iii 个 SFIB，耦合仿射变换写作：

Fspi=Fpi⊙exp⁡(ϕ1(Fmsi))+ρ1(Fmsi) F_{sp}^i = F_p^i \odot \exp(\phi_1(F_{ms}^i)) + \rho_1(F_{ms}^i) Fspi=Fpi⊙exp(ϕ1(Fmsi))+ρ1(Fmsi)

Fsmsi=Fmsi⊙exp⁡(ϕ2(Fpi))+ρ2(Fpi) F_{sms}^i = F_{ms}^i \odot \exp(\phi_2(F_p^i)) + \rho_2(F_p^i) Fsmsi=Fmsi⊙exp(ϕ2(Fpi))+ρ2(Fpi)

其中 ϕ(⋅)\phi(\cdot)ϕ(⋅) 是尺度函数，ρ(⋅)\rho(\cdot)ρ(⋅) 是平移函数，⊙\odot⊙ 表示 Hadamard 乘积。这个结构的直觉是：一个模态不只是简单拼接给另一个模态，而是通过尺度和平移动态调制另一模态的特征。

变换函数内部还使用 half-instance normalization。以 FpiF_p^iFpi 为例：

Fepi=Conv⁡(Fpi) F_{ep}^i=\operatorname{Conv}(F_p^i) Fepi=Conv(Fpi)

F1epi,F2epi=split⁡(Fepi) F_{1ep}^i,F_{2ep}^i=\operatorname{split}(F_{ep}^i) F1epi,F2epi=split(Fepi)

Fsipi=Conv⁡(Cat⁡ $IN(F1epi),F2epi$ ) F_{sip}^i=\operatorname{Conv}(\operatorname{Cat} $\\operatorname{IN}(F_{1ep}\^i),F_{2ep}\^i$ ) Fsipi=Conv(Cat $IN(F1epi),F2epi$ )

一半特征归一化，一半特征保持原始信息，可以在增强变换能力的同时减少信息损失。

4. 双域交互：先补偿，再融合

频率分支 FfreiF_{fre}^iFfrei 擅长全局结构，但细节不足；空间分支 FspaiF_{spa}^iFspai 擅长局部纹理，但全局上下文弱。论文设计了两步交互。

第一步是信息补偿，用二者差异引导空间注意力：

Fgli=Ffrei+SA(Ffrei−Fspai)×Fspai F_{gl}^i = F_{fre}^i + SA(F_{fre}^i-F_{spa}^i) \times F_{spa}^i Fgli=Ffrei+SA(Ffrei−Fspai)×Fspai

空间注意力由平均池化、最大池化和卷积得到：

Fspa=σ(Conv⁡(Cat⁡ $Favg,Fmax$ )) F_{spa} = \sigma(\operatorname{Conv}(\operatorname{Cat} $F_{avg},F_{max}$ )) Fspa=σ(Conv(Cat $Favg,Fmax$ ))

第二步是信息融合，将增强后的全局频率特征与局部空间特征做通道注意力：

Ffusei=CA(Cat⁡ $Fgli,Fspai$ )+Fmsi F_{fuse}^i = CA(\operatorname{Cat} $F_{gl}\^i,F_{spa}\^i$ ) + F_{ms}^i Ffusei=CA(Cat $Fgli,Fspai$ )+Fmsi

图 5 解释了为什么双域交互有意义：FfreF_{fre}Ffre 更像全局响应，FspaF_{spa}Fspa 更像局部纹理，二者差异能提示模型哪里需要补偿，融合后的 FfuseF_{fuse}Ffuse 同时保留更清晰的空间结构和目标模态信息。

5. 空间-频率联合损失

传统方法多用像素级空间损失。本文在此基础上加入频率域监督。空间损失为：

Lspa=∥H−GT∥1 \mathcal{L}_{spa}=\|H-GT\|_1 Lspa=∥H−GT∥1

频率损失同时约束振幅和相位：

Lfre=∥A(H)−A(GT)∥1+∥P(H)−P(GT)∥1 \mathcal{L}_{fre}=\|A(H)-A(GT)\|_1+\|P(H)-P(GT)\|_1 Lfre=∥A(H)−A(GT)∥1+∥P(H)−P(GT)∥1

总损失为：

L=Lspa+λLfre,λ=0.1 \mathcal{L}=\mathcal{L}{spa}+\lambda\mathcal{L}{fre}, \quad \lambda=0.1 L=Lspa+λLfre,λ=0.1

这个损失很关键：结构上做空间-频率双分支，训练目标也必须同时约束空间像素与频率分布，否则频率分支容易变成"附属模块"。

实验设置与评价任务

论文在两个任务上验证通用性：

任务	数据集	主要指标	目的
全色锐化	WorldView-II、GaoFen2、WorldView-III	PSNR、SSIM、SAM、ERGAS、QNR 等	验证遥感 MS/PAN 融合能力
全分辨率全色锐化	GaoFen2、WorldView-II real-world scenes	DλD_\lambdaDλ、DSD_SDS、QNR	验证真实无 GT 场景泛化
深度超分辨率	NYU v2、Middlebury、Lu	RMSE / MAE	验证 RGB-D 多模态融合泛化

在训练上，全色锐化实验使用 Adam，batch size 为 4，初始学习率 5×10−45\times 10^{-4}5×10−4，训练 1000 epochs；深度超分辨率使用 NYU v2 训练，并在 Middlebury 和 Lu 上测试泛化。

主要实验结果分析

全色锐化实验里，SFINet / SFINet++ 在 WorldView-II、GaoFen2、WorldView-III 三个数据集上整体优于传统方法和深度学习方法。论文报告 SFINet++ 在 PSNR 上相对已有最佳方法分别提升约 0.10 dB、0.17 dB、0.09 dB。这个提升看起来不夸张，但在全色锐化这种指标已经高度竞争的任务里，配合 SAM、ERGAS、QNR 等指标同步改善，说明模型不是简单锐化边缘，而是在空间细节和光谱一致性之间取得更好平衡。

在真实全分辨率场景里，SFINet++ 也表现更稳。这里没有高分辨率 GT，所以评估更依赖无参考指标 DλD_\lambdaDλ、DSD_SDS 和 QNR。论文结论是：一些方法能增强细节，但容易牺牲光谱一致性；SFINet++ 在空间增强和光谱保持之间更均衡。

深度超分辨率实验进一步证明该框架不是只适用于遥感全色锐化。模型在 NYU v2 训练后，在 Middlebury 和 Lu 上也有较好泛化。对于 bicubic down-sampling，论文报告相比 DKN 在平均 RMSE 上分别降低 0.09、0.38、0.87（对应 4x、8x、16x）；对于 direct down-sampling，也在 4x、8x、16x 上取得更低 RMSE。

可视化上，SFINet++ 更擅长恢复边界和细长结构。传统引导滤波容易过平滑，部分深度学习方法会出现伪边界或局部 artifacts，而 SFINet++ 借助频率全局信息与空间局部细节的交互，能得到更清晰的深度边缘。

消融实验与机制验证

论文的消融实验主要回答三个问题：

SFIB 数量是否越多越好？ 结果显示，模块数从 1 增加到 8 时性能持续提升，但继续增加会出现收益饱和甚至下降。论文默认选择 K=5K=5K=5，在性能和计算量之间折中。
频率分支是否必要？ 去掉频率分支后，性能明显下降，说明全局频率信息不是可有可无的装饰，而是恢复高质量融合结果的关键。
频率损失是否必要？ 去掉频率损失后，各项指标严重退化。这说明频率域监督直接影响模型能否学到正确的全局频率分布。

方法价值与技术启示

我认为这篇论文最有价值的地方不在于"用了 FFT"，而在于它把频域建模做成了完整闭环：

问题动机闭环：从下采样丢失高频信息出发，说明为什么多模态融合天然需要频域视角。
结构设计闭环：频率分支负责全局，空间分支负责局部，双域交互负责互补融合。
优化目标闭环：除了像素级空间损失，还用振幅和相位约束频率域恢复。
任务泛化闭环：同一个框架能覆盖全色锐化和深度超分辨率，说明空间-频率思想具有一定通用性。

这也给后续多模态融合模型一个很清晰的启示：多模态不只是"通道拼接 + 卷积融合"，还应该分析不同模态在频率结构、相位边界和全局能量分布上的互补关系。

局限性与后续研究方向

当然，SFINet 仍有一些值得继续推进的地方：

频域处理虽然带来全局感受野，但 FFT 和双分支结构会增加工程复杂度。
论文主要验证了 PAN/MS 和 RGB/depth 两类场景，面向红外、SAR、事件相机等更复杂模态还需要进一步验证。
频率域里的振幅/相位融合目前仍偏模块化，未来可以考虑更自适应的频带选择或可学习频率分解。
对无 GT 真实场景的评估仍依赖有限无参考指标，真实业务质量还需要更多主观和任务级评估。

总结

SFINet / SFINet++ 可以看作多模态图像融合从"空间域卷积映射"走向"空间-频率双域协同学习"的代表性尝试。它把全局频率上下文、局部空间纹理、双域交互补偿和频率损失放进同一个框架，在全色锐化和深度超分辨率两个任务上都取得了较强表现。对于需要同时保持结构、细节和模态一致性的融合任务，这种空间-频率统一建模思路很值得继续跟进。