论文题目:Spectral Selection Convolution and Overlapped-Centering Mamba Network for Hyperspectral Image Classification
论文来源 :https://arxiv.org/abs/2502.16214
代码地址 :https://github.com/zhao-chunyu/SaliencyMamba
目录
-
-
- [1. 核心思想](#1. 核心思想)
- [2. 背景与动机](#2. 背景与动机)
- [3. 主要创新点](#3. 主要创新点)
- [4. 方法细节](#4. 方法细节)
-
- [4.1 整体网络架构与数据流](#4.1 整体网络架构与数据流)
- [4.2 核心创新模块详解](#4.2 核心创新模块详解)
- [5. 即插即用模块的作用与应用场景](#5. 即插即用模块的作用与应用场景)
- [6. 实验部分简单分析](#6. 实验部分简单分析)
-
1. 核心思想
针对高光谱图像(HSI)中光谱波段极度丰富但也伴随海量冗余、且带标签样本极为稀缺的痛点,本文提出了一种专为高光谱分类设计的超轻量级卷积-Mamba 混合架构 SliMamba。其核心思想是"打破常规维度壁垒与强化中心先验":在特征提取前端,首创了光谱选择卷积(SSC),通过在物理层面上交换空间与光谱维度,以极低的卷积参数量实现了大感受野的跨通道特征提纯;在序列建模后端,设计了重叠中心 Mamba(OC-Mamba),将中心像素的先验知识完美嵌入到局部与全局的"蛇形扫描"序列中。该模型在将参数量压缩至极限(仅需十余 K)的同时,全面刷新了高光谱分类的 SOTA 精度。
2. 背景与动机
从文本与数据特性的角度来看,高光谱图像面临着一个经典的悖论:包含数百个连续光谱波段,这提供了极致的物质辨识度,但也引发了严重的"维数灾难"和信息冗余。
现有的深度学习方法在应对这一挑战时往往陷入两难:
- CNN 的局限:缺乏全局感受野,难以在数百个通道间建立长程的跨通道依赖。
- ViT 的昂贵:虽然有全局视野,但注意力机制的计算复杂度呈二次方爆炸,对高维 HSI 数据极不友好。
- 原生 Mamba 的盲区 :最近火热的 Mamba 模型虽然凭借线性复杂度解决了长序列问题,但作者敏锐地发现,直接将 Mamba 扫过高光谱数据时,往往忽略了显式的跨通道依赖关系(Cross-channel dependencies)。此外,在极小样本集(Few-shot)的场景下,现有模型若想引入图像块的"中心像素先验(Center pixel prior)"来辅助定位,往往会导致网络结构急剧膨胀。
动机图解分析:
观察论文中关于有效感受野(ERF)的可视化分析图可以极其直观地看到动机。如果我们仅仅使用普通的 2D 或纯全局的 Mamba 扫描,模型对图像的注意力往往是极其发散甚至漂移的。高光谱图像块(Patch)的分类本质上是对"中心像素"属性的预测。如果没有一种机制能牢牢地将感受野锚定在中心像素上,并以此为核心向外辐射读取上下文,模型就极易被边缘的背景噪声(如相邻类别的光谱)所干扰。这种"中心焦点丢失"加上"通道间缺乏交互"的现象,直接引出了 SliMamba 必须同时攻克"跨通道提纯"与"中心先验扫描"的强烈动机。
3. 主要创新点
本文的破局思路异常精妙,总结为以下四大创新亮点:
- 提出极简双分支架构 SliMamba:将原始光谱流与降维光谱流并行处理,兼顾了原始物理信息的保留与高阶语义的提取。
- 独创光谱选择卷积 (SSC):堪称全篇最惊艳的操作。它将光谱轴与空间轴进行物理对调,使得普通的空间域深度卷积(Depthwise Conv)能够直接等效于大感受野的光谱跨通道特征选择。
- 构建重叠中心 Mamba (OC-Mamba):设计了单像素重叠 SSM(O-SSM)和中心 SSM(C-SSM),通过多方向"蛇形扫描"与衰减位置编码,强制网络聚焦中心像素并捕获局部-全局拓扑关系。
- 引入中心空谱交叉注意力 ( C S 2 C A CS^2CA CS2CA):在 SSC 与 OC-Mamba 之间建立了一座桥梁,利用中心像素向量与全局空间向量进行多粒度的交叉引导。
4. 方法细节
4.1 整体网络架构与数据流

SliMamba 的数据流宛如一套精密的双轨分流系统:
- 输入与分流 :高光谱图像切块后,兵分两路。一路保留原始数百个波段进入原始分支 (Original Branch) ;另一路通过 PCA 降维后进入降维分支 (Dimensionality-Reduction Branch)。
- 原始分支的提纯 :特征先经过 SA-SSM(基于 Mamba 的全局光谱注意力)筛选出重要波段,随后进入 SSC 模块。在这里,冗余的通道被大幅压缩,并提取出全局空间向量(GSV)。
- 降维分支的序列化 :降维后的特征在接收了来自 C S 2 C A CS^2CA CS2CA 模块反馈的中心像素信息后,送入 OC-Mamba 模块,进行极其彻底的局部与全局空谱序列建模。
- 融合与输出:两条分支的输出在尾部汇合,通过多尺度分组卷积(MSGC)完成最终的特征降维与融合,送入全连接层输出分类结果。
4.2 核心创新模块详解

模块 A:SSC(光谱选择卷积)
这是突破常规 CNN 通道建模瓶颈的杀手锏。传统方法提取通道间关系(如 SE-Net)需要庞大的全连接层,而 SSC 则进行了一次"降维打击":
- 维度乾坤大挪移 :首先,将原始空间维度(如 7 × 7 7\times 7 7×7)展平,并将其视为"新的光谱维度";同时将原本极长的光谱通道维度折叠成一个 2D 矩阵,视为"新的空间维度"。
- 深度卷积跨界提取 :在这个"伪空间"上,使用多组具有不同膨胀率(Dilation=1, 2, 3)的 3 × 3 3\times 3 3×3 深度可分离卷积进行滑动。这在数学本质上,完美等效于在原光谱通道上进行了不同跨度的大感受野跨通道组合。
- 低成本还原:卷积完成后,再把维度交换回来。这种"借鸡生蛋"的做法,使得模型能在仅需传统卷积一半不到的参数量下,完成极度复杂的跨波段特征提取。
模块 B:OC-Mamba(重叠中心 Mamba 块)
如何让 Mamba 具有"中心意识"?OC-Mamba 设计了内外兼修的双子模块:
- O-SSM (单像素重叠 SSM,主攻局部) :将图像块切分为 4 个在中心区域有 1 像素重叠的子区域。从四个角开始,分别向中心点进行"蛇形扫描 (Snake Scan)"。最绝的是加入了衰减位置编码 (DPE),扫描越靠近中心,赋予的权重越高,强迫模型在局部细节中将中心像素奉为核心。
- C-SSM (中心 SSM,主攻全局) :将降采样后的全局特征与提取出的中心像素向量相加。随后进行全局视角的蛇形扫描。最后,局部特征与全局特征通过可学习权重 λ \lambda λ 动态融合,使得中心目标既有微观纹理,又有宏观环境支撑。
理念与机制总结:
SliMamba 的设计哲学是**"维度视角的降维与重构"**。它深刻理解了高光谱数据 X ∈ R H × W × C X \in \mathbb{R}^{H \times W \times C} X∈RH×W×C 中 C C C(通道)不仅是特征通道,更是物理频谱的本质。SSC 通过数学矩阵的转置,让普通卷积拥有了处理高维光谱序列的能力;而 OC-Mamba 则是将二维的空谱分布强制压扁为多条一维序列,但通过精心设计的扫描路径(从外向内)和位置编码,人为地在这条一维序列中刻画出了二维图像中的"中心焦点"。
5. 即插即用模块的作用与应用场景
论文中极其精致的子模块具有极高的通用价值,完全可以作为即插即用(Plug-and-Play)组件快速迁移到其他遥感或医疗任务中:
- SSC (光谱选择卷积) :
- 适用场景:任何输入数据具有极高通道维度,且通道之间存在高度冗余物理关联,同时硬件部署算力极度受限的场景。
- 具体应用 :医学影像中的高维 fMRI(功能性核磁共振)数据分析、多光谱无人机农业病害检测。可以直接用 SSC 替换掉网络中的 1 × 1 1\times 1 1×1 降维卷积,在几乎不增加算力的前提下实现极佳的波段自适应选择。
- O-SSM (带衰减位置编码的重叠蛇形扫描 Mamba) :
- 适用场景:所有对"中心锚点目标"极其敏感的 Patch-Level 密集分类或小目标检测任务。
- 具体应用:不仅限于高光谱,在雷达 SAR 图像的小型舰船切片识别、或者病理切片中的单细胞恶性分类中,O-SSM 的"向心式扫描"机制能够完美摒弃背景杂波,死死咬住视野中心的待检测实体。
6. 实验部分简单分析
在 Houston、Trento、WHU-Hi-HongHu 等四个权威高光谱基准数据集上的实验结果,堪称一场"四两拨千斤"的视觉盛宴:
- 参数量与精度的魔幻倒挂 :在 WHU-Hi-HongHu 数据集上,SliMamba 以 不到 20K 的极致参数量和仅 1.0M 左右的 FLOPs,不仅击溃了庞大的 CNN 基线,甚至在 OA(总体精度)上超越了参数量高达 1900K 的大型 Transformer 和纯 Mamba 模型。
- 分类边界的视觉碾压:从可视化的分类结果图来看,其他对比方法在相似地物(如不同种类的植被或道路边缘)经常出现大面积的"椒盐噪声"或误分类斑块。而 SliMamba 凭借 SSC 强大的波段过滤与 OC-Mamba 精准的中心先验锚定,输出的分类图不仅色块纯净,地物边界的锐利度更是极其贴近真实标签(Ground Truth)。
- 核心模块的绝对效用:消融实验直接证明了其设计的紧凑性。去掉任何一个组件(特别是 SSC 内部的维度切换机制或 OC-Mamba 的局部扫描分支),都会导致精度的显著下滑,充分说明该架构中没有一丝多余的"水分"。
总结:SliMamba 不仅是一篇技术极其扎实的顶刊论文,更为后续大火的 Mamba 模型如何低成本、高效率地处理高维物理特征提供了极为宝贵的工程蓝本。强烈建议所有从事多模态/多通道视觉任务的开发者深入研究!