论文解读:SFINet 空间-频率统一学习框架用于多模态图像融合

论文解读

SFINet:面向多模态图像融合的空间-频率统一学习框架

论文:Man Zhou 等,A General Spatial-Frequency Learning Framework for Multimodal Image Fusion ,IEEE TPAMI 2025。

关键词:多模态图像融合、全色锐化、深度超分辨率、傅里叶变换、空间-频率学习、可逆神经算子。

核心观点

这篇论文的出发点很直接:全色锐化和 RGB 引导深度超分辨率本质上都是"用高分辨率引导模态补齐低分辨率目标模态的高频信息"。既然退化过程天然发生在频率域,只在空间域用卷积学习映射是不完整的。作者提出 SFINet / SFINet++,把空间域的局部纹理建模、频率域的全局上下文建模,以及二者之间的交互补偿放进一个统一框架。

研究背景与问题定义

多模态图像融合的典型目标是:输入一个低分辨率目标图像和一个高分辨率引导图像,输出兼具目标模态语义/光谱一致性与引导模态空间细节的高分辨率结果。论文重点验证了两个代表性任务:

  • Pan-sharpening:用高分辨率 PAN 图像引导低分辨率 MS 图像,恢复高空间分辨率多光谱影像。
  • Depth image super-resolution:用高分辨率 RGB 图像引导低分辨率深度图,恢复边界清晰的高分辨率深度图。

过去很多深度方法主要在空间域操作,用卷积堆叠学习局部映射。但下采样会直接丢失高频成分,单纯依赖空间域像素损失,容易出现纹理细节不足、边界模糊、全局频率结构恢复不稳定等问题。

图 1 是这篇论文的动机核心。作者把全色锐化和深度超分辨率都放到 DFT 频域里看:相位更对应结构与边缘,振幅更对应频率能量分布。PAN/RGB 通常提供更强的高频结构信息,MS/depth 则保留目标模态的语义或光谱属性。因此,融合模型需要同时关注空间域局部细节和频率域全局结构。

方法框架概览

SFINet 的基本输入可以抽象成两类:低分辨率目标模态经过上采样后的特征,以及高分辨率引导模态特征。网络由多个 SFIB(Spatial-Frequency Information Integration Block)级联构成,每个 SFIB 都包含三部分:

  • Frequency Domain Branch, FD:用傅里叶变换处理振幅和相位,获得全局频率表征。
  • Spatial Domain Branch, SD:用可逆神经算子建模局部空间信息,保留细节与跨模态信息。
  • Dual-domain Interaction, DI:让空间与频率表征互补,先补偿再融合。

对全色锐化任务,论文将上采样后的 MS 图像记作 MMM,PAN 特征记作 FpF_pFp,网络输出为:

H=SFIBs⁡(M,Fp)+M H = \operatorname{SFIBs}(M, F_p) + M H=SFIBs(M,Fp)+M

这里的残差连接有两个作用:一是让模型专注于补充缺失细节,二是保持目标模态的基础光谱/语义信息不被过度改写。

关键公式与机制拆解

1. 图像傅里叶变换

给定图像或特征图 x∈RH×W×Cx \in \mathbb{R}^{H \times W \times C}x∈RH×W×C,对每个通道独立做二维 DFT:

F(x)(u,v)=1HW∑h=0H−1∑w=0W−1x(h,w)e−j2π(hHu+wWv) \mathcal{F}(x)(u,v)=\frac{1}{\sqrt{HW}}\sum_{h=0}^{H-1}\sum_{w=0}^{W-1}x(h,w)e^{-j2\pi(\frac{h}{H}u+\frac{w}{W}v)} F(x)(u,v)=HW 1h=0∑H−1w=0∑W−1x(h,w)e−j2π(Hhu+Wwv)

频域复数可以拆成实部 R(x)R(x)R(x) 和虚部 I(x)I(x)I(x),进而得到振幅和相位:

A(x)(u,v)=R2(x)(u,v)+I2(x)(u,v) A(x)(u,v)=\sqrt{R^2(x)(u,v)+I^2(x)(u,v)} A(x)(u,v)=R2(x)(u,v)+I2(x)(u,v)

P(x)(u,v)=arctan⁡(I(x)(u,v)R(x)(u,v)) P(x)(u,v)=\arctan\left(\frac{I(x)(u,v)}{R(x)(u,v)}\right) P(x)(u,v)=arctan(R(x)(u,v)I(x)(u,v))

论文把这个分解作为全局信息建模的入口:振幅分支关注频率能量,相位分支关注结构排列。

2. 频率分支:融合振幅与相位

对于第 iii 个 SFIB,设 PAN/RGB 引导特征为 FpiF_p^iFpi,MS/depth 目标特征为 FmsiF_{ms}^iFmsi。先分别做傅里叶变换:

A(Fpi),P(Fpi)=F(Fpi) A(F_p^i), P(F_p^i)=\mathcal{F}(F_p^i) A(Fpi),P(Fpi)=F(Fpi)

A(Fmsi),P(Fmsi)=F(Fmsi) A(F_{ms}^i), P(F_{ms}^i)=\mathcal{F}(F_{ms}^i) A(Fmsi),P(Fmsi)=F(Fmsi)

随后用两个操作 OA(⋅)O_A(\cdot)OA(⋅) 和 OP(⋅)O_P(\cdot)OP(⋅) 分别融合振幅和相位:

A(Fpmi)=OA(Cat⁡[A(Fpi),A(Fmsi)]) A(F_{pm}^i)=O_A(\operatorname{Cat}[A(F_p^i), A(F_{ms}^i)]) A(Fpmi)=OA(Cat[A(Fpi),A(Fmsi)])

P(Fpmi)=OP(Cat⁡[P(Fpi),P(Fmsi)]) P(F_{pm}^i)=O_P(\operatorname{Cat}[P(F_p^i), P(F_{ms}^i)]) P(Fpmi)=OP(Cat[P(Fpi),P(Fmsi)])

最后通过逆傅里叶变换回到空间表示:

Ffrei=F−1(A(Fpmi),P(Fpmi)) F_{fre}^i=\mathcal{F}^{-1}(A(F_{pm}^i), P(F_{pm}^i)) Ffrei=F−1(A(Fpmi),P(Fpmi))

这个分支提供的是 image-wide receptive field,也就是空间卷积很难高效覆盖的全局频率上下文。

3. 空间分支:可逆神经算子保留局部细节

SFINet++ 相比 SFINet 的关键改进,是把原始空间分支里的普通卷积单元替换成 information-lossless invertible neural operator。对于第 iii 个 SFIB,耦合仿射变换写作:

Fspi=Fpi⊙exp⁡(ϕ1(Fmsi))+ρ1(Fmsi) F_{sp}^i = F_p^i \odot \exp(\phi_1(F_{ms}^i)) + \rho_1(F_{ms}^i) Fspi=Fpi⊙exp(ϕ1(Fmsi))+ρ1(Fmsi)

Fsmsi=Fmsi⊙exp⁡(ϕ2(Fpi))+ρ2(Fpi) F_{sms}^i = F_{ms}^i \odot \exp(\phi_2(F_p^i)) + \rho_2(F_p^i) Fsmsi=Fmsi⊙exp(ϕ2(Fpi))+ρ2(Fpi)

其中 ϕ(⋅)\phi(\cdot)ϕ(⋅) 是尺度函数,ρ(⋅)\rho(\cdot)ρ(⋅) 是平移函数,⊙\odot⊙ 表示 Hadamard 乘积。这个结构的直觉是:一个模态不只是简单拼接给另一个模态,而是通过尺度和平移动态调制另一模态的特征。

变换函数内部还使用 half-instance normalization。以 FpiF_p^iFpi 为例:

Fepi=Conv⁡(Fpi) F_{ep}^i=\operatorname{Conv}(F_p^i) Fepi=Conv(Fpi)

F1epi,F2epi=split⁡(Fepi) F_{1ep}^i,F_{2ep}^i=\operatorname{split}(F_{ep}^i) F1epi,F2epi=split(Fepi)

Fsipi=Conv⁡(Cat⁡[IN⁡(F1epi),F2epi]) F_{sip}^i=\operatorname{Conv}(\operatorname{Cat}[\operatorname{IN}(F_{1ep}^i),F_{2ep}^i]) Fsipi=Conv(Cat[IN(F1epi),F2epi])

一半特征归一化,一半特征保持原始信息,可以在增强变换能力的同时减少信息损失。

4. 双域交互:先补偿,再融合

频率分支 FfreiF_{fre}^iFfrei 擅长全局结构,但细节不足;空间分支 FspaiF_{spa}^iFspai 擅长局部纹理,但全局上下文弱。论文设计了两步交互。

第一步是信息补偿,用二者差异引导空间注意力:

Fgli=Ffrei+SA(Ffrei−Fspai)×Fspai F_{gl}^i = F_{fre}^i + SA(F_{fre}^i-F_{spa}^i) \times F_{spa}^i Fgli=Ffrei+SA(Ffrei−Fspai)×Fspai

空间注意力由平均池化、最大池化和卷积得到:

Fspa=σ(Conv⁡(Cat⁡[Favg,Fmax])) F_{spa} = \sigma(\operatorname{Conv}(\operatorname{Cat}[F_{avg},F_{max}])) Fspa=σ(Conv(Cat[Favg,Fmax]))

第二步是信息融合,将增强后的全局频率特征与局部空间特征做通道注意力:

Ffusei=CA(Cat⁡[Fgli,Fspai])+Fmsi F_{fuse}^i = CA(\operatorname{Cat}[F_{gl}^i,F_{spa}^i]) + F_{ms}^i Ffusei=CA(Cat[Fgli,Fspai])+Fmsi

图 5 解释了为什么双域交互有意义:FfreF_{fre}Ffre 更像全局响应,FspaF_{spa}Fspa 更像局部纹理,二者差异能提示模型哪里需要补偿,融合后的 FfuseF_{fuse}Ffuse 同时保留更清晰的空间结构和目标模态信息。

5. 空间-频率联合损失

传统方法多用像素级空间损失。本文在此基础上加入频率域监督。空间损失为:

Lspa=∥H−GT∥1 \mathcal{L}_{spa}=\|H-GT\|_1 Lspa=∥H−GT∥1

频率损失同时约束振幅和相位:

Lfre=∥A(H)−A(GT)∥1+∥P(H)−P(GT)∥1 \mathcal{L}_{fre}=\|A(H)-A(GT)\|_1+\|P(H)-P(GT)\|_1 Lfre=∥A(H)−A(GT)∥1+∥P(H)−P(GT)∥1

总损失为:

L=Lspa+λLfre,λ=0.1 \mathcal{L}=\mathcal{L}{spa}+\lambda\mathcal{L}{fre}, \quad \lambda=0.1 L=Lspa+λLfre,λ=0.1

这个损失很关键:结构上做空间-频率双分支,训练目标也必须同时约束空间像素与频率分布,否则频率分支容易变成"附属模块"。

实验设置与评价任务

论文在两个任务上验证通用性:

任务 数据集 主要指标 目的
全色锐化 WorldView-II、GaoFen2、WorldView-III PSNR、SSIM、SAM、ERGAS、QNR 等 验证遥感 MS/PAN 融合能力
全分辨率全色锐化 GaoFen2、WorldView-II real-world scenes DλD_\lambdaDλ、DSD_SDS、QNR 验证真实无 GT 场景泛化
深度超分辨率 NYU v2、Middlebury、Lu RMSE / MAE 验证 RGB-D 多模态融合泛化

在训练上,全色锐化实验使用 Adam,batch size 为 4,初始学习率 5×10−45\times 10^{-4}5×10−4,训练 1000 epochs;深度超分辨率使用 NYU v2 训练,并在 Middlebury 和 Lu 上测试泛化。

主要实验结果分析

全色锐化实验里,SFINet / SFINet++ 在 WorldView-II、GaoFen2、WorldView-III 三个数据集上整体优于传统方法和深度学习方法。论文报告 SFINet++ 在 PSNR 上相对已有最佳方法分别提升约 0.10 dB、0.17 dB、0.09 dB。这个提升看起来不夸张,但在全色锐化这种指标已经高度竞争的任务里,配合 SAM、ERGAS、QNR 等指标同步改善,说明模型不是简单锐化边缘,而是在空间细节和光谱一致性之间取得更好平衡。

在真实全分辨率场景里,SFINet++ 也表现更稳。这里没有高分辨率 GT,所以评估更依赖无参考指标 DλD_\lambdaDλ、DSD_SDS 和 QNR。论文结论是:一些方法能增强细节,但容易牺牲光谱一致性;SFINet++ 在空间增强和光谱保持之间更均衡。

深度超分辨率实验进一步证明该框架不是只适用于遥感全色锐化。模型在 NYU v2 训练后,在 Middlebury 和 Lu 上也有较好泛化。对于 bicubic down-sampling,论文报告相比 DKN 在平均 RMSE 上分别降低 0.09、0.38、0.87(对应 4x、8x、16x);对于 direct down-sampling,也在 4x、8x、16x 上取得更低 RMSE。

可视化上,SFINet++ 更擅长恢复边界和细长结构。传统引导滤波容易过平滑,部分深度学习方法会出现伪边界或局部 artifacts,而 SFINet++ 借助频率全局信息与空间局部细节的交互,能得到更清晰的深度边缘。

消融实验与机制验证

论文的消融实验主要回答三个问题:

  1. SFIB 数量是否越多越好? 结果显示,模块数从 1 增加到 8 时性能持续提升,但继续增加会出现收益饱和甚至下降。论文默认选择 K=5K=5K=5,在性能和计算量之间折中。
  2. 频率分支是否必要? 去掉频率分支后,性能明显下降,说明全局频率信息不是可有可无的装饰,而是恢复高质量融合结果的关键。
  3. 频率损失是否必要? 去掉频率损失后,各项指标严重退化。这说明频率域监督直接影响模型能否学到正确的全局频率分布。

方法价值与技术启示

我认为这篇论文最有价值的地方不在于"用了 FFT",而在于它把频域建模做成了完整闭环:

  • 问题动机闭环:从下采样丢失高频信息出发,说明为什么多模态融合天然需要频域视角。
  • 结构设计闭环:频率分支负责全局,空间分支负责局部,双域交互负责互补融合。
  • 优化目标闭环:除了像素级空间损失,还用振幅和相位约束频率域恢复。
  • 任务泛化闭环:同一个框架能覆盖全色锐化和深度超分辨率,说明空间-频率思想具有一定通用性。

这也给后续多模态融合模型一个很清晰的启示:多模态不只是"通道拼接 + 卷积融合",还应该分析不同模态在频率结构、相位边界和全局能量分布上的互补关系。

局限性与后续研究方向

当然,SFINet 仍有一些值得继续推进的地方:

  1. 频域处理虽然带来全局感受野,但 FFT 和双分支结构会增加工程复杂度。
  2. 论文主要验证了 PAN/MS 和 RGB/depth 两类场景,面向红外、SAR、事件相机等更复杂模态还需要进一步验证。
  3. 频率域里的振幅/相位融合目前仍偏模块化,未来可以考虑更自适应的频带选择或可学习频率分解。
  4. 对无 GT 真实场景的评估仍依赖有限无参考指标,真实业务质量还需要更多主观和任务级评估。

总结

SFINet / SFINet++ 可以看作多模态图像融合从"空间域卷积映射"走向"空间-频率双域协同学习"的代表性尝试。它把全局频率上下文、局部空间纹理、双域交互补偿和频率损失放进同一个框架,在全色锐化和深度超分辨率两个任务上都取得了较强表现。对于需要同时保持结构、细节和模态一致性的融合任务,这种空间-频率统一建模思路很值得继续跟进。

相关推荐
机器学习之心1 小时前
DBO-Transformer模型回归+SHAP分析+新数据预测+多输出!深度学习可解释分析(附MATLAB代码)
深度学习·回归·transformer·shap分析
晓梦林1 小时前
Commit靶场学习笔记
笔记·学习·安全·web安全
tanis_20771 小时前
DeepSeek-TUI 也能读 PDF 了:Skill + MinerU CLI 终端文档解析实战
人工智能·后端·深度学习·pdf·csdn开发云
星夜夏空991 小时前
STM32单片机学习(4)——嵌入式概述
stm32·单片机·学习
nashane1 小时前
HarmonyOS 6学习:HWAsan监测开启后应用崩溃的终极解决方案
学习·华为·harmonyos·harmonyos 5
谙弆悕博士1 小时前
Lua学习笔记
c语言·开发语言·笔记·学习·lua·创业创新·业界资讯
minglie12 小时前
zynq的栈监控与Xil_XXXAbortHandler问题排查
学习
Understanding_movies2 小时前
【Agent学习】Day13
学习
峥嵘life2 小时前
2026 五一赣州两日游记录:宋城夜色入梦,七鲤古意寻踪
学习