(iclr26) Enabling True Global Perception in State Space Models for Visual Tasks

作者认为，将 Mamba 用于视觉任务时存在两大关键难题：（1）状态空间模型采用逐步状态更新机制完成建模，每一步的计算仅依赖当前输入与历史状态，模型只能通过多步间接传递才能获取全局上下文信息，其感知能力仅局限于局部，无法实现显式的全局建模。（2）状态空间模型的状态更新机制适配具备清晰因果结构的时序数据，而图像内像素间不存在因果先后关系，二者存在结构层面的矛盾，进而制约了模型在图像建模任务上的性能。

为了解决这些问题，作者从频域视角出发，设计了GSSM，以2D-DFT 频域前置调制 为核心，利用 DFT 天然全局特性，在输入送入 SSM 前注入全图全局信息，从理论上让 SSM 满足图像全局感知定义；仅使用单向扫描即可实现真全局建模，无需复杂多方向遍历。

GSSM结构如下图所示，由三大子模块串行构成：FEM 频域编码模块 → FGMM 频域引导自适应调制模块 → 标准 SSM 状态空间单元。

（1）FEM 频域编码模块： 对输入特征图执行2D-DFT 二维离散傅里叶变换，使用 Mask分离高低频，对高低频特征分别进行加权（权重为可学习的参数），再进行傅里叶反变换。

（2）FGMM 频域引导自适应调制模块： 首先进行一个类似SE的注意力，然后使用两个可学习的参数α1\alpha_1α1 和α2\alpha_2α2 协调频率和空间特征的关系。

这个论文最大的理解难度在于图像全局感知数学定义，以及从理论证明 2D-DFT 满足该全局定义，为频域调制 SSM 提供理论依据。