作者认为,将 Mamba 用于视觉任务时存在两大关键难题:(1)状态空间模型采用逐步状态更新机制完成建模,每一步的计算仅依赖当前输入与历史状态,模型只能通过多步间接传递才能获取全局上下文信息,其感知能力仅局限于局部,无法实现显式的全局建模。(2)状态空间模型的状态更新机制适配具备清晰因果结构的时序数据,而图像内像素间不存在因果先后关系,二者存在结构层面的矛盾,进而制约了模型在图像建模任务上的性能。
为了解决这些问题,作者从频域视角出发,设计了GSSM,以2D-DFT 频域前置调制 为核心,利用 DFT 天然全局特性,在输入送入 SSM 前注入全图全局信息,从理论上让 SSM 满足图像全局感知定义;仅使用单向扫描即可实现真全局建模,无需复杂多方向遍历。
GSSM结构如下图所示,由三大子模块串行构成:FEM 频域编码模块 → FGMM 频域引导自适应调制模块 → 标准 SSM 状态空间单元。

(1)FEM 频域编码模块: 对输入特征图执行2D-DFT 二维离散傅里叶变换,使用 Mask分离高低频,对高低频特征分别进行加权(权重为可学习的参数),再进行傅里叶反变换。
(2)FGMM 频域引导自适应调制模块: 首先进行一个类似SE的注意力,然后使用两个可学习的参数α1\alpha_1α1 和α2\alpha_2α2 协调频率和空间特征的关系。
这个论文最大的理解难度在于图像全局感知数学定义,以及从理论证明 2D-DFT 满足该全局定义,为频域调制 SSM 提供理论依据。