Mamba学习笔记2:Mamba模型

所有 Mamba 模型,本质都是:

在不同任务上,如何设计"扫描顺序 + 状态更新方式 + 融合结构"。

SSM和mamba的关系

SSM 和 Mamba 是"理论框架 "与"具体实践"的关系。

把 SSM(状态空间模型) 理解为一个强大的数学"理论工具包"

Mamba则是基于这个工具包,为解决处理长序列数据这一难题而专门打造的、性能卓越的"实践模型"

Mamba 不是凭空来的,它来自一条 SSM 进化路线:

S4(Structured State Space)

第一个成功的 SSM 深度模型

解决长序列问题

S5 / DSS / HiPPO

改进稳定性

更好记忆长期信息

Mamba(质变点)

👉 加入:

input-dependent 参数(关键!)

selective scan

→ 才真正接近 Transformer 表达能力

1. Mamba(原版)

最核心模型

特点:

  • 基于 Selective SSM
  • 无 attention

核心计算:

关键创新:

  • 输入相关参数(dynamic A, B, C)
  • selective scan

2. Mamba-2(升级版)

改进方向:

  • 更稳定的训练
  • 更好的长序列性能
  • 更接近 Transformer 的表达能力

核心变化(直觉):

  • 状态更新结构更规整
  • 更容易并行
  • 更适合大模型 scaling

3. Vision Mamba(VMamba)

用于图像任务。

核心思路:

  • 把 2D 图像 → 转成序列
  • 用 Mamba 扫描

常见技巧:

  • 行扫描(row scan)
  • 列扫描(column scan)
  • 双向扫描(bidirectional)

👉 本质:

用 Mamba 替代 ViT 的 attention

4. Spatial-Mamba / Spectral-Mamba

专门针对高光谱:

Spectral-Mamba

沿波段扫描(B 维)

处理光谱序列

Spatial-Mamba

沿空间扫描(H×W)

处理纹理结构

👉 常见组合:
Spectral + Spatial 双流融合(SOTA)

5. Bidirectional Mamba(双向)

普通 Mamba 是单向:

u1→u2→...→uL

双向版本:

forward scan

backward scan

最后融合:

y=yforward+ybackward

6. Hierarchical Mamba(层次结构)

类似 CNN / Swin:

局部 → 全局

多尺度

用于:

  • 图像分类
  • 目标检测

​7. Mamba + Attention(Hybrid)

思路:

短程 → attention

长程 → Mamba

保留 attention 的精确建模,用 Mamba 降成本

8. Mamba Transformer(替换 attention)

直接把:

Attention→Mambablock

👉 得到:

Mamba-based LLM 、 Mamba-based ViT

Mamba用于高光谱图像分类

核心挑战:Mamba为何能派上用场?

复制代码
①高维海量数据:动辄上百个光谱波段,信息量大但冗余也多。
②双重依赖关系:需要同时理解"光谱连续性"(同地物随波段变化)和"空间上下文"(像素间关系)。
③计算效率:传统Transformer模型在处理长序列时,计算量会呈平方级增长(O(N²))。

Mamba模型凭借其线性的计算复杂度(O(N)),恰好能够高效捕捉长距离依赖,成为处理这类数据的有力工具。

核心思路:让Mamba看懂图像

Mamba是为处理1D序列 而设计的,而高光谱图像是3D数据

因此,第一步就是序列化 :通常的做法是以目标像素为中心,切出一个固定大小的"图像块",并将其展平成一个长序列,作为模型的输入。

目前主流的序列化策略主要有两种:

复制代码
①双分支独立处理:分别从光谱和空间两个维度构建序列,让模型分别学习,再融合。
②3D序列统一建模:设计3D扫描机制,直接在三维空间内为Mamba创建序列。例如,设计不同的扫描路线(如从左上到右下),以便模型能从不同方向捕捉信息。

代表性模型详解

根据具体的设计理念,当前的研究可以主要分为以下几类:

1. 3D扫描机制先驱:3DSS-Mamba

3DSS-Mamba是3D扫描机制的代表作。其关键技术是3D光谱-空间选择性扫描 (3DSS) 机制。

复制代码
操作流程:
    生成3D标记:将3D的HSI立方体转换为3D标记,保留原始结构信息。
    多路线扫描:设计5条扫描路线(例如:先光谱再空间等),以探索不同维度优先级的影响,确保模型能从各个方向捕捉全局依赖关系。
    提取语义:扫描后的信息再结合常规映射操作,最终提取出全局的语义表示。

2. 双向与多向建模:MambaHSI+ 与 HG-Mamba

早期的Mamba模型是单向的,而HSI数据本身没有时序方向性。因此,最新的研究开始强调双向或多向建模的重要性。

复制代码
MambaHSI+:引入了双向上下文建模和反向序列扫描,实现了更全面的信息整合。
HG-Mamba:设计了光谱双向Mamba (SeBM) 和空间双向Mamba (SaBM) 模块,分别处理光谱和空间维度的双向依赖性。

3. 多尺度与轻量化设计:SSP-Mamba 与 HyperSMamba

高光谱图像中,地物形态尺度各异。这两类模型旨在从不同尺度提取特征并提升效率。

复制代码
SSP-Mamba(多尺度):采用双通道金字塔结构和特征增强模块 (FEM),分别处理光谱和空间信息,并融入多尺度特征。
HyperSMamba(轻量级):其多尺度状态融合模块 (MSFM) 能够聚合相邻状态表示,增强空间依赖,同时降低计算成本。

4. 混合架构与特征增强:MHSSMamba 与 MMP-Mamba

Mamba也常与CNN、Transformer等模块结合,或加入其他特征增强机制。

复制代码
MHSSMamba:将Mamba与多头自注意力 (Multi-Head Self-Attention) 结合,以捕捉光谱和空间位置间的复杂关系。
MMP-Mamba:在Mamba的序列建模中融入形态学先验,动态生成形态学核来增强局部细节并抑制噪声。
相关推荐
悠哉悠哉愿意2 小时前
【物联网学习笔记】ADC
笔记·单片机·嵌入式硬件·物联网·学习
lkbhua莱克瓦242 小时前
考研数学零基础学习Day1
学习
Wyawsl2 小时前
MySQL故障排查与优化
android·adb
solicitous3 小时前
遇到一个口头机遇的答辩准备3(ai告诉的要点)
学习·生活
CheerWWW3 小时前
C++学习笔记——this关键字、对象生命周期(栈作用域)、智能指针、复制与拷贝构造函数
c++·笔记·学习
温天仁3 小时前
西门子PLC编程实践教程:工控工程案例学习
开发语言·学习·自动化·php
charlie1145141913 小时前
嵌入式C++教程实战之Linux下的单片机编程:从零搭建 STM32 开发工具链(5):调试进阶篇 —— 从 printf 到完整 GDB 调试环境
linux·c++·单片机·学习·嵌入式·c
Moqiqiuzi3 小时前
ET8.1-ECS组件式编程
笔记·学习
VelinX4 小时前
【个人学习||spring】spring ai
人工智能·学习·spring