Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Mamba：基于选择状态空间的线性时间序列建模

Albert Gu∗1 和 Tri Dao∗2

卡内基梅隆大学机器学习系

普林斯顿大学计算机科学系

摘要

现在驱动深度学习中大多数令人兴奋的应用程序的基础模型，几乎普遍基于变压器架构及其核心注意力模块。已经开发出了许多次方时间的架构，如线性关注、门控卷积和循环模型以及结构化状态空间模型（SSM），以解决变压器在长序列上的计算低效性，但它们在诸如语言等重要模态上没有表现出与注意力相同的效果。我们发现这类模型的一个关键弱点是无法进行基于内容的推理，并做出了几个改进。首先，简单地让 SSMS 参数成为输入的函数解决了它对离散模态的缺陷，使模型能够根据当前标记选择传播或遗忘信息沿着序列长度维度。其次，尽管这一变化阻止了高效卷积的使用，但我们设计了一个在循环模式下针对硬件并行的算法。我们将这些选择性的 SSMS 集成到一个简化版端到端神经网络架构中，该架构不包含注意力甚至多层感知机块（Mamba）。Mamba 享有快速推断（比变压器高出 5 倍的吞吐量）和序列长度的线性扩展，且在真实数据上性能提升高达数百万级的序列长度。作为一种通用序列模型，Mamba 在多个模态（例如语言、音频和基因组学）上实现了最先进的性能。在语言建模方面，我们的 Mamba-3B 模型在预训练和下游评估中均优于同规模的变压器，并且与两倍大小的变压器相匹配。

1. 简介

基础模型（FMs），即在大规模数据上预先训练好的模型，然后针对下游任务进行调整，已成为现代机器学习的有效范例。这些 FMs 的核心通常是序列模型，它们可以操作来自各种领域的输入序列，如语言、图像、语音、音频、时间序列和基因组学（Brown 等人，2020 年；Dosovitskiy 等人，2020 年；Ismail Fawaz 等人，2019 年；Oord 等人，2016 年；Poli 等人，2023 年；Sutskever、Vinyals 和 Quoc V Le，2014 年）。虽然这个概念对特定的模型架构选择持中立态度，但现代 FMs 主要基于一种序列模型：Transformer（Vaswani 等人，2017 年）及其核心注意力层（Bahdanau、Cho 和 Bengio，2015 年）。自我关注的效果归功于它能够在上下文窗口内密集路由信息，使其能够建模复杂的数据。然而，这种特性带来了根本性的缺点：无法建模有限窗口之外的任何事物，并且与窗口长度成二次方增长。已经出现了大量关于更有效注意力变体的研究，以克服这些缺点（Tay、Dehghani、Bahri 等人，2022 年），但通常是在牺牲使其实现有效的属性的基础上。到目前为止，还没有证据表明这些变体在跨领域大范围内证明其有效性。

最近，结构化状态空间序列模型(SSMs) (Gu、Goel 和 Ré, 2022; Gu、Johnson、Goel 等, 2021) 已成为序列建模的有希望的一类架构。这些模型可以解释为循环神经网络（RNN）和卷积神经网络（CNN）的组合，灵感来自经典的贝叶斯滤波器（Kalman, 1960）。这类模型可以以非常高效的方式计算，作为递归或卷积，并且具有线性或近似线性的扩展规模。此外，它们还有原则机制来处理某些数据模式中的长程依赖关系(Gu、Dao 等, 2020)，并在诸如 Long Range 的基准测试中占主导地位

按名字首字母排序。

Arena 等人，2021 年。许多种 SSMS（Gu、Goel 和 Ré，2022；Gu、Gupta 等人，2022；Gupta、Gu 和 Berant，2022；Y. Li 等人，2023；Ma 等人，2023；Orvieto 等人，2023；Smith、Warrington 和 Linderman，2023）在涉及连续信号数据（如音频和视觉）的领域取得了成功（Goel 等人，2022；Nguyen、Goel 等人，2022；Saon、Gupta 和 Cui，2023）。然而，它们在建模文本等离散且信息密集的数据方面效果较差。

我们提出了一类新的选择性状态空间模型，它在多个维度上改进了以前的工作，以实现与序列长度线性扩展的变压器建模能力。

选择机制。首先，我们确定了先前模型的一个关键局限性：高效地根据输入（即关注或忽略特定输入）选择数据的能力。基于对重要合成任务的选择复制和归纳头的直观理解，我们设计了一个简单的选择机制，通过参数化 SSM 参数来实现。这使得模型能够过滤掉不相关的信息，并无限期地记住相关信息。

硬件感知算法。这种简单的改变给模型计算带来了技术挑战；事实上，为了高效计算，所有之前的 SSM 模型都必须具有时间和输入不变性。我们通过一种硬件感知算法来克服这一点，该算法使用扫描而不是卷积来递归地计算模型，但不会实现扩展状态，以避免在不同层次的 GPU 内存层次结构之间进行 I/O 访问。结果的实现比以前的方法更快，无论是在理论上（与基于卷积的所有 SSM 相比，在序列长度上呈线性增长，而伪线性为所有）还是在现代硬件上（在 A100 GPU 上最快可提高 3 倍）。

架构。我们通过将先前的 SSM 架构的设计（Dao、Fu、Saab 等人，2023 年）与 Transformer 的 MLP 块合并为一个块，从而简化了之前的深度序列模型架构，这导致了一个包含选择性状态空间的简单而统一的架构设计（Mamba）。

选择性自回归模型（SSMs）以及由此扩展出的 Mamba 架构，都是完全递归的模型。它们具有关键特性，使其非常适合用作一般基础模型的序列操作核心。（i）高质量：选择性为诸如语言和基因组学等稠密模态带来了出色的性能。(ii)快速训练和推断：在训练过程中，计算和内存都与序列长度呈线性增长；而在推理过程中，由于不需要缓存之前的元素，因此只需要常数时间来展开自回归模型，而无需花费额外的时间。(iii)长上下文：质量和效率共同提高了对真实数据的性能表现，最长可达 1M 序列长度。

我们在多种模态和设置上，通过验证Mamba作为通用序列FM后端的预训练质量和特定领域的任务性能来实证其潜力：

• 合成。在诸如复制和归纳等关键合成任务中，作为大型语言模型的关键组成部分，Mamba 不仅可以轻松解决这些问题，而且还可以无限期地推断解决方案 (> 1M 个标记)。

• 音频和基因组学。Mamba 在建模音频波形和 DNA 序列方面，无论是预训练质量还是下游指标（例如，在具有挑战性的语音生成数据集上将 FID 减少一半以上），都优于之前的最先进模型，如 SaShiMi、Hyena 和 Transformers。在两种情况下，它的性能随着上下文长度的增加而提高，可以处理长达一百万长度的序列。

• 语言建模。Mamba 是第一个真正实现与 Transformer 相同质量性能的线性时间序列模型，无论是预训练困惑度还是下游评估。通过 10 亿个参数的扩展法则，我们证明了 Mamba 超越了一系列基准，包括基于 LLaMA (Touvron et al. 2023) 的非常强大的现代 Transformer 训练食谱。我们的 Mamba 语言模型的生成吞吐量比类似大小的 Transformer 高 5 倍，而 Mamba-3B 的质量与其两倍大的 Transformer 相当（例如，在常识推理上的平均值比 Pythia-3B 高 4 分，甚至超过 Pythia-7B）。

模型代码和预训练检查点在 https://github.com/state-spaces/mamba 上开源。

2 状态空间模型

结构化状态空间序列模型（S4）是深度学习中的一类近期的序列模型，与循环神经网络、卷积神经网络和经典的状态空间模型密切相关。它们受到特定连续系统（1）的启发，该系统将一个

硬件感知状态扩展

一个一维函数或序列x(t)∈R 🟥→y(t)∈R通过一个隐含的潜在状态h(t)∈RN。

具体来说，S4模型由四个参数（A、B、C）定义，这些参数在两个阶段中定义了一个序列到序列的转换。

离散化。第一阶段通过固定公式 A = fA (A, A) 和 B = fB (A, A, B) 将"连续参数"(A, A, B) 转换为"离散参数"(A, B)，其中二元组 (fA, fB) 称为离散规则。可以使用各种规则，如方程 (4) 中定义的零阶保持器（ZOH）。

离散化与连续时间系统之间有深厚的联系，这赋予了它们额外的特性，如分辨率不变性（Nguyen、Goel等人，2022年）以及自动确保模型正确归一化（Gu、Johnson、Timalsina等人，2023年；Orvieto等人，2023年）。它还与RNN的门控机制有关（Gu、Gulcehre等人，2020年；Tallec和Ollivier，2018年），我们将在第3.5节中再次讨论。然而，从机械的角度来看，离散化可以简单地看作是SSM前向计算图的第一步。替代的SSM变体可以跳过离散化步骤，直接参数化(A,B)(Zhang等人，2023)，这可能更容易推理。

计算。在参数从 (A, A, B, C) 变换为 (A, B, C) 之后，模型可以以两种方式计算：线性递归(2) 或全局卷积(3)。

通常，模型使用卷积模式（3）进行高效的并行训练（其中整个输入序列提前查看），并在有效的自回归推断中切换到循环模式（2）（其中一次只看一个时间步骤）。

线性时不变系统。方程（1）到（3）的一个重要特性是模型的动力学在时间上保持恒定。换句话说，A、B 和 C 在所有时间步长都是固定的，因此 A 和 B 也是固定的。这个性质可以被描述为

我们称之为线性时间不变（LTI），它与递归和卷积密切相关。非正式地说，我们认为 LTI 随机微分方程等同于任何线性递归 (2a) 或卷积 (3b)，并使用 LTI 作为这些模型类的通称。

到目前为止，所有结构化的隐式自回归模型都是线性时间不变的（例如，通过卷积计算）。这是因为第 3.3 节中讨论的基本效率限制。然而，这项工作的核心见解是，LTI 模型在建模某些类型的数据时存在固有局限性，而我们的技术贡献包括移除 LTI 约束并克服效率瓶颈。

结构与维度。最后，我们注意到，有结构的 SSM 是如此命名的原因是因为高效计算它们也需要对 A 矩阵施加结构。最常见的形式是对角线（Gu、Gupta等人，2022；Gupta、Gu 和 Berant，2022；Smith、Warrington 和 Linderman，2023），我们也使用这种形式。

在这种情况下，属于RN ×N、B 属于RN ×1 和C 属于R1×N 的矩阵都可以用N个数字来表示。为了对输入序列x进行处理，其批量大小为B，长度为L，具有D个通道，每个通道独立应用SSM。请注意，在这种情况下，总隐藏状态具有DN维度，计算它需要O（BLDN）的时间和内存；这是在第3.3节中讨论的基本效率瓶颈的根本原因。

一般状态空间模型。我们注意到"状态空间模型"这个词有非常广泛的意思，它只是代表了任何具有潜在状态的可复现过程的概念。它被用来指代许多不同学科中的许多不同的概念，包括马尔科夫决策过程（MDP）（强化学习（Hafner等人，2020年）），动态因果建模（DCM）（计算神经科学（Friston、Harrison和Penny，2003年）），卡尔曼滤波器（控制（Kalman，1960年）），隐马尔科夫模型（HMM）和线性动力学系统（LDS）（机器学习），以及更广泛的循环（有时是卷积）模型（深度学习）。

在本文中，我们用"结构化隐式状态模型（SSM）"一词来专门指代一类结构化的隐式状态模型或S4模型（Gu、Goel 和 Ré 2022；Gu、Gupta 等人。2022；Gupta、Gu 和 Berant 2022；Hasani 等人。2023；Ma 等人。2023；Smith、Warrington 和 Linderman 2023），并互换使用这些术语。为了方便起见，我们还可以包括此类模型的变体，例如侧重于线性递归或全局卷积观点的模型（Y. Li 等人。2023；Orvieto 等人。2023；Poli 等人。2023），并在必要时澄清细微差别。

序列到序列模型。 SSMS 是可以集成到端到端神经网络架构中的独立序列转换。(我们有时也把 SSMS 架构称为 SSNN，就像卷积神经网络中的卷积层一样) 我们会讨论一些最著名的 SSMS 架构，其中许多也将作为我们的主要基准线。

• 线性注意力（Katharopoulos et al. 2020）是对涉及递归的自注意的近似，可以将其视为退化的线性隐马尔可夫模型。

H3 (Dao、Fu、Saab等，2023) 将此递归推广到使用 S4；它可以被看作是一种具有两个门控连接之间的 SSM 的架构（图3）。H3还在主要的 SSM 层之前插入了一个标准局部卷积，他们将其称为位移-SSM。

Hyena (Poli等人，2023) 使用与H3相同的架构，但用MLP参数化的全局卷积替换了S4层（Romero等人，2021）。

RetNet (Sun等人，2023年) 在架构中添加了一个额外的门，并使用一个更简单的 SSM，从而允许使用多头注意力（MHA）的一种变体而不是卷积来进行替代并行计算路径。

• RWKV (B. Peng等人，2023年) 是一种最近设计用于语言建模的 RNN，基于另一种线性注意力近似------无关注力场Transformer (S. Zhai 等人，2021)。其主要"WKV"机制涉及LTI递归，并可以视为两个SSM之比。

在附录B中，我们进一步讨论了其他与之密切相关的模型和架构。我们特别强调S5（Smith等人，2023）、QRNN（Bradbury等人，2016）和SRU（Lei等人，2017），我们认为这些方法最接近我们的核心选择性自回归模型。

3. 选择性状态空间模型

我们利用合成任务（第 3.1 节）的直觉来激励我们的选择机制，然后解释如何将其纳入状态空间模型（第 3.2 节）。由此产生的时变状态空间模型不能使用卷积，这给计算效率提出了技术挑战。通过一个硬件感知算法解决这个问题，该算法利用了现代硬件上的内存层次结构（第 3.3 节）。然后，我们描述了一个没有注意力或甚至多层感知器块的简单状态空间模型架构（第 3.4 节）。最后，我们讨论了一些选择机制的额外属性（第 3.5 节）。

3.1 激励：选择作为压缩的一种手段

我们认为，序列建模的基本问题在于如何将上下文压缩为更小的状态。事实上，我们可以从这个角度来审视流行序列模型之间的权衡。例如，注意力机制在效率上是有效的，但却是低效的，因为它不会对上下文进行任何压缩。这可以从自回归推理需要显式存储整个上下文（即 KV 缓存）这一事实中看出，这就直接导致了 Transformer 的线性推理时间和二次训练时间。另一方面，循环模型由于具有有限状态而高效，这意味着常数时间推理和线性时间训练。然而，它们的有效性受到这种状态对上下文压缩程度的限制。

为了理解这一原则，我们关注两个合成任务的例子（图2）。

选择性复制任务通过改变要记住的标记的位置来修改流行的复制任务（Arjovsky、Shah 和 Bengio 2016）。它需要内容感知推理，以便能够记住相关的标记（彩色）并过滤掉不相关的标记（白色）。

• Induction Heads 任务是一种众所周知的机制，用于解释大多数语言模型在上下文中的学习能力（Olsson 等人，2022 年）。它需要对语境进行推理，以了解何时以及如何在适当的情况下生成正确的输出（黑色）。

简而言之，序列模型的效率与有效性权衡由它们压缩状态的能力来刻画：高效模型必须具有小的状态，而有效模型必须具有包含来自上下文的所有必要信息的状态。反过来，我们提出构建序列模型的基本原则是选择性，即能够关注或过滤输入以进入序列状态的上下文感知能力。具体来说，选择机制控制着信息如何沿着序列维度传播或交互（参见第3.5节进行更多讨论）。

3.2 通过选择改进 SSMs

一种在模型中引入选择机制的方法是让影响序列交互的参数（例如，RNN 的递归动力学或 CNN 的卷积核）依赖于输入。

算法1和2展示了我们使用的主要选择机制。主要区别在于，简单地使几个参数A、B、C成为输入的函数，并相应地改变张量形状。具体来说，我们强调这些参数现在具有长度维度L，这意味着模型已经从不变性变为可变性。(注意：形状注释在第2节中进行了描述。)这导致了与卷积（3）等价性的丧失，从而对其效率产生了影响，如下面讨论的那样。

我们特别选择sB(x) = LinearN(x), sC(x) = LinearN(x), sA(x) = BroadcastD(Linear1(x)) 和τa = softplus，其中Lineard 是一个参数化投影到维度d。sa 和τt 的选择与在第3.5节中解释的RNN门控机制有关。

3.3 选择性SSM的有效实现

硬件友好的基本元素，如卷积（ Krizhevsky、Sutskever 和 Hinton，2012 年）和注意力（ Bahdanau、Cho 和 Bengio，2015 年； Vaswani 等人，2017 年），得到了广泛的应用。在这里，我们的目标是在现代硬件（GPU）上高效地实现选择性 SSM。这种选择机制非常自然，早期的工作试图纳入选择的一些特殊情况，例如在递归 SSM 中让 A 随时间变化（Gu、Dao 等人，2020 年）。但是，正如前面提到的，SSM 的使用存在一个关键限制，即它们的计算效率低下，这就是为什么 S4 及其所有变体都使用了线性时不变 (LTI) 模型，最常见的是全局卷积的形式。

3.3.1 早期模型的动机

我们首先回顾这一动机，并概述了克服先前方法局限性的方法。

• 高级地，如 SSMs 这样的递归模型总是权衡表达能力和速度：正如第 3.1 节讨论的那样，具有更大隐藏状态维度的模型应该更有效但运行速度会慢一些。因此我们希望在不支付速度和内存成本的情况下最大化隐藏状态维度。

注意，递归模式比卷积模式更灵活，因为后者（3）是由前者的扩展计算得到的。 (Gu, Goel 和 Ré, 2022; Gu, Johnson, Goel 等人, 2021)。然而，这需要计算并生成形状为 (B, L, D, N) 的潜在状态 h，其大小（N 是 SSM 状态维度的倍数）远大于输入 x 和输出 y 的形状 (B, L, D)。因此引入了更有效的卷积模式，它可以跳过状态计算，并生成仅包含 (B, L, D) 的卷积核(3a)。

• 之前的 LTI 状态空间模型利用双重递归卷积形式，以 N（≈10−100）的因子增加有效状态维度，比传统的 RNN 大得多，而不会产生效率损失。

3.3.2 选择扫描概述：硬件感知状态扩展

选择机制旨在克服 LTI 模型的局限性；因此，我们需要重新审视 SSM 的计算问题。我们使用三种经典技术来解决这个问题：核融合、并行扫描和重新计算。我们的观察如下：

• 简单循环计算使用 O(BLDN) 浮点运算，而卷积计算使用 O(BLDlog⁡(L)) 浮点运算，前者具有较小的常数因子。因此对于长序列和不太大的状态维度N，循环模式实际上可以少用一些浮点运算。

• 两个挑战分别是递归的顺序性质，以及巨大的内存使用。为了应对后一个挑战，就像卷积模式一样，我们可以尝试不实际生成完整的状态h。

主要思想是利用现代加速器（GPU）的特性，仅在内存层次结构中更有效率的级别上实现状态h。特别是，除了矩阵乘法之外，大多数操作(Dao、Fu、Ermon等人，2022；Ivanov等人，2021；Williams、Waterman和Patterson，2009)都受到内存带宽的限制。这包括我们的扫描操作，我们使用内核融合来减少内存IO的数量，从而比标准实现产生显著的速度提升。

具体来说，我们不准备GPU HBM（高带宽内存）中大小为 (B, L, D, N) 的扫描输入，而是直接从慢HBM加载SSM参数（A, A, B, C），在SRAM中执行离散化和递归，然后将大小为 (B, L, D) 的最终输出写回到HBM。

为了避免这种顺序递归，我们观察到尽管它不是线性的，但仍然可以使用工作高效的并行扫描算法进行并行化（Blelloch 1990；Martin 和 Cundy 2018；Smith、Warrington 和 Linderman 2023）。

最后，我们还必须避免保存反向传播所需的中间状态。我们仔细应用了经典的重新计算技术来减少内存需求：在从 HBM 加载到 SRAM 时，在反向传递过程中重新计算中间状态而不是存储它们。因此，与优化的带 FlashAttention 的 Transformer 实现相比，融合选择性扫描层具有相同的内存要求。

融合内核和重新计算的详细信息在附录D中。完整的选择性SSM层和算法如图1所示。

3.4 简化的 SSM 架构

与结构化自回归模型类似，选择性自回归模型是独立于序列的转换，可以灵活地嵌入到神经网络中。H3 架构是所有已知的自回归架构的基础（第 2 节），通常由一个受线性注意力启发的块和一个多层感知机 (MLP) 块交替组成。我们通过将这两个组件合并为一个堆叠式同质组件来简化该架构（图 3）。这是受到门控注意力单元 (GAU) 的启发（华等人，2022 年），它对注意力做了类似的处理。

这种架构通过可控制扩展因子E来增加模型维度D。对于每个块，大部分参数（3ED^{2）都在线性投影中（输入投影为2ED}2，输出投影为ED^2），而内部 SSM 的贡献较少。SSM 参数（A、B、C 的投影和矩阵A）的数量比这些要少得多。我们在标准归一化和残差连接之间重复这个块以形成 Mamba 架构。在我们的实验中，我们总是固定 E = 2，并使用两个堆叠块来匹配交织的 MHA（多头注意力）和 MLP 块的 12D^2 参数。我们使用 SiLU/Swish 激活函数（Hendrycks 和 Gimpel 2016；Ramachandran、Zoph 和 Quoc V Le 2017），以使门控 MLP 成为流行的"SwiGLU"变体（Chowdhery 等人，2023；Dauphin 等人，2017；Shazeer，2020；Touvron 等人，2023）。最后，我们额外使用一个可选的归一化层（我们选择层归一化（Ba、Kiros 和 Hinton，2016）），这是受 RetNet 在类似位置使用归一化层的启发（Sun 等人，2023）。

3.5 选择机制的性质

选择机制是一种更广泛的概念，可以用不同的方式应用于各种传统循环神经网络或卷积神经网络、不同参数（例如算法2中的A）或使用不同的变换s(x)。

图3：(体系结构)。我们简化了块设计，将大多数SSM体系结构的基础H3块与现代神经网络中无处不在的MLP块相结合。我们没有交错这两个块，而是简单地重复使用Mamba块。与H3块相比，Mamba用激活函数替换了第一个乘法门。与MLP块相比，Mamba在主分支上添加了一个SSM。对于σ，我们使用SiLU/Swish 激活 ( Hendrycks 和 Gimpel 2016 ; Ramachandran 等人 2017 )。

3.5.1 连接门控机制

我们强调了最重要的联系：RNN 的经典门控机制是我们在 SSM 中选择机制的一个实例。我们注意到 RNN 门控与连续时间系统离散化之间的联系已经得到很好的建立（Funahashi 和 Nakamura，1993；Tallec 和 Ollivier，2018）。事实上，定理 1 是对 Gu 等人的改进(2021,引理 3.1)，它推广到 ZOH 离散化和输入相关门（证明在附录 C 中）。更广泛地说，在 SSM 中，A 可以被视为 RNN 门控机制的一种一般化角色。根据以往的研究，我们认为 SSM 的离散化是启发式门控机制的合理基础。

定理 1。当 N = 1，A = -1，B = 1，sA = 线性（x），τa = softplus 时，选择性 SSM 循环（算法 2）采用如下形式

如第 3.2 节所述，我们对 sA 和 τA 的具体选择源于这种联系。特别要注意的是，如果给定的输入 x t 应该被完全忽略（在合成任务中是必要的），那么所有 D 个通道都应该忽略它，因此我们在重复/广播之前先将其投影到一维上。

3.5.2 选择机制的解释

我们详细阐述了选择的三种特定机制效应。

可变间距。选择性使模型能够过滤掉可能出现在感兴趣输入之间的不相关噪声标记。这一特性在 Selective Copying 任务中得到了体现，但在常见的数据模态中无处不在，尤其是离散数据------例如语言填充词的存在（如"额"）。这种性质出现是因为模型可以机械地滤除任何特定的输入xt，在门控循环神经网络 (gated RNN) 的情况下 (Theorem 1)，当gt→ 0时。

过滤上下文。实验观察到，许多序列模型在更长的上下文环境中性能没有提高（Shi等人，2023年），尽管更多的上下文应该导致严格更好的性能的原则。一个解释是，许多序列模型不能有效地忽略不相关的上下文；直观的例子是全局卷积(以及广义LTI模型)。另一方面，选择性模型可以简单地在任何时候重置其状态以消除不必要的历史记录，因此它们的性能原则上随着上下文长度单调地改善（例如，第4.3.2节）。

边界重置。在多个独立序列串联在一起的情况下，transformer 可以通过实例化一个特定的注意力掩码来保持它们之间的分离，而长短期记忆模型会在序列之间泄漏信息。选择性状态向量也可以在边界处重置状态（例如，在 gt → ∞ 或当 gt → 1 时）。这些设置可能是人为的（例如，为了提高硬件利用率而将文档打包在一起）或自然的（例如，在强化学习中遇到的序列边界(Lu等人，2023年)）。

此外，我们还详细阐述了每个选择参数的影响。

A 的解释。一般来说，A 控制着当前输入xt应集中或忽略的程度之间的平衡。它推广了循环神经网络门（例如定理1中的gt）：从机械上讲，大的A重置状态h并关注当前输入x，而小的A保持状态并忽略当前输入。SSM (1) - (2) 可以被解释为一个由时间步长A离散化的连续系统，在这种情况下，直观地理解为大A→∞表示系统更长时间地关注当前输入（因此"选择"它并忘记其当前状态），而小A→0表示被忽略的瞬态输入。

解释A。我们注意到，尽管参数A也可以选择性地影响模型，但最终它只通过与A 的交互作用来影响模型（通过离散化）。因此，在A 中具有选择性足以确保在(A, B)中具有选择性，并且是主要的改进来源。我们假设使A 除了（或代替）A 具有选择性会具有相似的表现，并出于简单起见将其省略。

解释B和C。如第3.1节所述，选择性最重要的属性是过滤掉不相关的信息，这样序列模型的上下文就可以被压缩成一个有效的状态。在 SSM 中，通过使 B 和 C 具有选择性来修改它们，这使得可以更细粒度地控制是否允许输入 x t 进入 h t 或者从 h t 输出 y t 。这些可以理解为根据内容（输入）和上下文（隐藏状态）分别调节循环动力学。

3.6 其他模型细节

实数与复数。大多数先前的 SSM 在其状态向量 h 中使用复数，这对于感知模态任务的强性能至关重要（Gu、Goel 和 Ré，2022 年）。然而，人们已经观察到，在某些情况下，完全由实数组成的 SSM 似乎可以很好地工作，甚至可能更好（Ma 等人，2023 年）。我们在默认情况下使用实值，对于我们的所有任务来说效果都很好；我们假设复数-实数权衡与数据模式中的连续-离散谱相关，其中复数对连续模式（例如音频、视频）有帮助，但对离散模式（例如文本、DNA）没有帮助。

初始化。大多数之前的 SSM 方法也建议特殊的初始化，尤其是在复数情况中，这有助于许多低数据设置。我们对复数情况的默认初始化为 S4D-Lin 和实数情况的默认初始化为 S4D-Real (Gu、Gupta 等人，2022)，这是基于 HIPPO 理论（Gu、Dao 等人，2020）。这些定义了矩阵 A 的第 n 个元素分别为 -1/2 + ni 和 -(n+1)。然而，我们预计许多初始化都会起作用，特别是在大数据和实值 SSM 情况下；一些修剪在第 4.6 节进行了讨论。

对A的参数化。我们定义了对A的选择性调整sA(x) = BroadcastD(Linear1(x))，这是由A的动力学（第3.5节）驱动的。我们观察到它可以推广到从一维到更大的维度R。我们将其设置为D的小部分，与块中的主要线性投影相比使用很少的参数。此外，我们注意到广播操作可以看作另一个线性投影，初始化为特定的1和0模式；如果这个投影是可训练的，那么这就导致了替代方案sA(x) = LinearD(LinearR(x))，可以视为低秩投影。

在我们的实验中，参数A（可以看作偏差项）初始化为τ−1(Uniform([0.001, 0.1]))，这是根据之前对SSMs的工作(Gu等人，2023年)。

注释 3.1。为了简明起见，我们在实验结果中有时将选择性自适应模糊神经元模型缩写为S6模型，因为它们是带有选择机制的S4模型，并且通过扫描计算。

4 实证研究

在第 4.1 节中，我们测试了 Mamba 解决在第 3.1 节中启发的两个合成任务的能力。然后我们在三个领域进行评估，每个领域都对自回归预训练以及下游任务进行了评估。

• 第4.2节：语言模型预训练（扩展法则），以及零样本下游评估。

• 第4.3节：DNA序列预训练，以及在长序列分类任务上进行微调。

• 第4.4节：音频波形预训练，以及自回归生成语音片段的质量。

最后，第 4.5 节展示了 Mamba 在训练和推理时间上的计算效率，而第 4.6 节则消除了架构的各种组件和选择性状态转移。

4.1 生成任务

这些任务的完整实验细节，包括任务细节和训练协议，请参见附录 E.1。

4.1.1 选择性复制

复制任务是序列建模中最广泛研究的人工合成任务之一，最初设计用于测试循环模型的记忆能力。如第 3.1 节所述，线性递归 (LTI) 隐马尔可夫模型可以轻松地通过只关注时间而不是数据来解决此问题；例如，通过构造长度恰好正确的卷积核（图 2）。在早期关于全局卷积的工作中已经明确验证了这一点（Romero等人，2021年）。选择性复制任务通过随机化标记之间的间距来防止这种捷径。需要注意的是，该任务以前被称为去噪任务（Jing等人，2019年）。

请注意，许多以前的工作表明，添加架构门控（乘法交互）可以赋予模型"数据依赖性"，并解决相关任务（Dao、Fu、Saab等人，2023；Poli等人，2023）。然而，我们直观地发现这种解释不足，因为这样的门控不会沿着序列轴进行交互，并且不能影响标记之间的间距。特别是，架构门控不是选择机制的一个实例（附录A）。

表1证实了像H3和Mamba这样的门控架构在性能上只带来了部分改善，而选择机制（修改S4到S6）很容易解决这个任务，特别是当与这些更强大的架构结合使用时。

4.1.2 激励头

诱导头（Olsson等人，2022年）是从机制可解释性的角度（Elhage等人，2021年）提出的简单任务，令人惊讶地预测了 LLM 的上下文学习能力。它要求模型执行关联回忆和复制：例如，如果模型在序列中看到一个二元组，如"哈利·波特"，那么当下一次"哈利"出现在同一序列时，模型应该能够通过从历史记录中复制来预测"波特"。

数据集。我们在序列长度为 256、词汇大小为 16 的情况下，训练了一个两层模型来处理感应头任务，这与之前在这个任务上的工作（Dao、Fu、Saab 等人，2023 年）相似，但使用了更长的序列。我们还通过在测试时评估一系列序列长度从 2^6 = 64 到 2^20 = 1048576 来研究泛化能力和外展能力。

模型。在先前关于诱导头的工作基础上，我们使用了两层模型，这使得注意力能够从机制上解决诱导头的任务（Olsson等人，2022）。我们测试了多头注意力（8个头部，带有各种位置编码）和SSM变体。我们在Mamba中使用了64维的模型维度，在其他模型中使用了128维。

结果。表2显示，Mamba 或更确切地说，其选择性 SSM 层能够完美地解决该任务，因为它有能力选择性地记住相关的标记，同时忽略其他所有在中间的内容。它能够完美地推广到比训练期间看到的长100万倍的数据序列（即比其训练数据长4000 倍），而没有任何其他方法超过两倍。

表1：

架构和内部序列层组合的准确性。

在注意力模型的不同位置编码变体中，用于长度外推的设计的位置编码xPos比其他位置编码略好；此外，请注意由于内存限制，所有注意力模型都只测试到序列长度为214 = 16384。与Poli等人(2023)的研究结果相反，在其他 SSM 中，H3 和Hyena 相似。

4.2 语言建模

我们在标准自回归语言建模任务上评估了毒蛇架构，与其他架构相比，在预训练指标（困惑度）和零样本评估方面。我们设置模型大小（深度和宽度）以反映GPT-3规范。我们使用Pile数据集（L. Gao, Biderman等人，2020），并遵循Brown等人（2020）中描述的训练食谱。所有训练细节都在附录E.2中。

4.2.1 缩放定律

为了基准，我们比较了标准的变压器架构（GPT-3 架构）以及我们所知道的最强大的变压器食谱（这里称为变压器++），基于 PaLM 和 LLaMA 架构（例如旋转嵌入、SwiGLU MLP、RMSNorm 而不是层归一化、没有线性偏差以及更高的学习率）。我们还与其他最近的次二次架构进行了比较（图 4）。所有模型细节都在附录 E.2 中。

图 4 展示了在标准 Chinchilla（Hoffmann 等，2022 年）协议下，从约 1.25 亿到约 13 亿个参数的模型中的扩展规律。Mamba 是第一个不使用注意力机制的模型，其性能与现在已经成为标准的非常强大的 Transformer 模型（Transformer ++）相匹配，尤其是当序列长度增加时。（需要注意的是，由于缺乏有效的实现导致内存不足或计算需求不切实际，无法获得 RWKV 和 RetNet 基准以及此前的强循环模型（也可视为 SSM）在上下文长度为 8K 的完整结果。）

4.2.2 下游评估

表3显示了Mamba在一系列流行的下游零样本评估任务中的性能。我们与这些规模上最知名的开源模型进行了比较，最重要的是Pythia（Biderman等人，2023年）和RWKV（Peng等人，2023年），它们使用与我们的模型相同的分词器、数据集和训练长度（300B个标记）。注意，Mamba和Pythia使用上下文长度为2048进行训练，而RWKV使用上下文长度为1024进行训练。

4.3 DNA 模型

受大型语言模型成功推动，最近对使用基础模型范式进行基因组学的研究。DNA 被比作语言，因为它由有限词汇表中的离散标记序列组成。它还以需要长程依赖来建模而闻名（Avsec等人，2021）。我们研究了 Mamba 作为 FM 的预训练和微调的基础，在与最近关于 DNA 长序列模型的工作相同的设置中（Nguyen、Poli 等人，2023 年）。具体而言，我们关注两个探索跨越模型大小和序列长度的规模法则（图 5），以及一个下游困难合成分类任务，该任务要求长时间上下文（图 6）。

在预训练阶段，我们主要遵循了标准因果语言建模（下一个标记预测）设置来训练模型，并在附录E.2中提供了详细的模型细节。对于数据集，我们主要遵循了HyenaDNA (Nguyen, Poli等人，2023) 的设置，使用包含大约45亿个token（DNA碱基对）的人类基因组单体进行预训练。

人类基因组(HG38)上的尺度法则

缩放定律-序列长度（hg38）

4.3.1 伸缩性：模型大小

在这个实验中，我们研究了具有不同模型骨干的各种基因组基础模型的缩放特性(图5左)。

训练。为了优化基线，我们在序列长度为 1024 的情况下进行训练；如第 4.3.2 节所示，我们预计在较长的序列长度下结果会更有利于蟒蛇。我们固定全局批大小为 1024，每批总共有 220 ≈ 1M 个标记。模型总共进行了 10K 步梯度更新，处理了总共 10B 个标记。

结果。图 5 (左) 表明，Mamba 的预训练困惑度随着模型大小而平滑地提高，并且 Mamba 比 HyenaDNA 和 Transformer++ 更容易扩展。例如，在大约 40M 参数的最大模型大小处，曲线表明，Mamba 可以用比 Transformer++ 和 HyenaDNA 模型少约 3 到 4 倍的参数来匹配它们。

4.3.2 缩放：上下文长度

在接下来的 DNA 实验中，我们研究了模型序列长度方面的伸缩性。由于二次关注成本高昂，因此我们仅比较了HyenaDNA 和 Mamba 模型。我们在 210=1024、212=4096、214=16384、216=65536、218=262144 和 220=1048576 的序列长度上预训练模型。我们固定了一个大小为 6 层、宽度为 128（约 1.3M-1.4M 参数）的模型。总共训练了 20k 步梯度，使用了大约 330B 个标记。使用类似于 Nguyen、Poli 等人的方法进行序列长度温升。

结果。图 5 (右) 表明，蟒蛇能够利用更长的上下文，甚至可以处理长度为 1M 的非常长的序列，其预训练困惑度随着上下文的增加而提高。另一方面，HyenaDNA 模型在序列长度方面表现不佳。这可以从第 3.5 节关于选择机制属性的讨论中直观地看出。特别是，LTI 模型不能选择性地忽略信息；从卷积的角度来看，一个非常长的卷积核正在聚合整个长序列中的所有信息，这可能非常嘈杂。需要注意的是，虽然 HyenaDNA 声称其在较长的上下文环境中表现更好，但他们的实验没有控制计算时间。

4.3.3 合成物种分类

我们通过随机采样 DNA 序列的一个连续片段，对模型进行评估，以在下游任务中区分五个不同的物种。这项任务改编自 HyenaDNA，其使用的物种包括：人类、狐猴、老鼠、猪和河马。为了使任务更具挑战性，我们将任务修改为在五种类人猿（人类、黑猩猩、大猩猩、红毛猩猩和倭黑猩猩）之间分类，这五种物种共享 99% 的 DNA。

图6：大猩猩DNA分类。(使用具有相同上下文长度的预训练模型，在序列长度为210 = 1024到220 = 1,048,576之间进行微调)。表13中的数字结果。

4.4 音频建模与生成

对于音频波形模态，我们主要与 SaShiMi 架构及其训练协议进行比较（Goel et al. 2022）。该模型包括：

一个带有两个阶段池化，每个阶段池化因子为p，使模型维度D翻倍的U-Net骨干，
每个阶段交替使用S4和MLP块。
我们考虑用 Mamba 块替换 S4+MLP 块。实验细节在附录 E.4 中。

4.4.1 长距离上下文自回归预训练

我们在 YouTubeMix（DeepSound 2017）上评估了预训练质量（自回归下一个样本预测），这是一个包含 4 小时独奏钢琴音乐的标准钢琴音乐数据集，采样率为 16kHz。预训练细节遵循标准语言建模设置（见第 4.2 节）。图 7 评估了从 2^13 = 8192 到 2^20 ≈ 106 增加训练序列长度的效果，同时保持计算量不变。（对数据进行编目的方式存在一些细微的边缘情况，可能会导致缩放曲线上的不连续性。例如，只有几分钟长的片段可用，因此最大序列长度实际上受限制为 60s · 16000Hz = 960000 。）

Mamba 和 SaShiMi (S4+MLP) 基线随着语境长度的增加而不断改善；在所有情况下，Mamba 都比 SaShiMi 更好，并且在较长的长度下差距更大。主要度量标准是每字节比特数（BPS），它是预训练其他模态的标准负对数似然损失的常数因子的以 2 为底的对数。

我们注意到一个重要的细节：这是我们在这篇论文中唯一一次从实参数化切换到复数参数化（见第 3.6 节）。我们在附录 E.4 中展示了额外的删除实验。

4.4.2 自回归语音生成

SC09 是一个基准语音生成数据集（Donahue，McAuley 和 Puckette，2019；Warden，2018），由采样频率为每秒 16000 次的数字"零"到"九"的音频片段组成，具有高度可变的特征。我们主要遵循了 Goel 等人(2022)的自回归训练设置和生成协议。

表 4 展示了来自戈尔等人。 (2022): WaveNet(Orde 等人，2016 年)，SampleRNN(Mehri 等人，2017 年)，WaveGAN(Donahue、McAuley 和 Puckette，2019 年)，DiffWave(Z. Kong 等人，2021 年)和 SaShiMi 的各种基线与 Mamba-UNet 模型之间的自动度量：一个小的 Mamba 模型优于最先进的（并且大得多）生成对抗网络和扩散模型。一个参数匹配基准的更大模型在保真度指标上取得了显著的改进。

表5 将小Mamba模型与不同架构的不同阶段和中心阶段进行组合。它表明，在外层块中，Mamba始终优于S4+MLP，在中心块中，Mamba> S4+MLP>MHA+MLP。

表4：(SC09) 对于一个具有挑战性的固定长度语音片段数据集上的无条件生成的自动度量。(从上到下) 自回归基线，非自回归基线，Mamba 和数据集指标。

表5：（SC09模型修剪）参数为6M的模型。在SaShiMi的U-Net骨干中，有8个中心块处理序列长度为1000，在每个侧面由8个外侧块夹住，这些外侧块以序列长度为4000进行处理，并且被8个序列长度为16000的外侧块夹住（总共40个块）。中心块的架构与其余部分独立修剪。注意由于效率限制，未在更重要的外部块中测试Transformers (MHA+MLP)。

4.5 速度与内存基准测试

我们在图8中比较了SSM扫描操作（状态扩展N = 16）的速度，以及Mamba端到端推理吞吐量。我们高效的SSM扫描在序列长度超过2k时比我们所知道的最佳注意力实现（FlashAttention-2（Dao 2024））快，并且比PyTorch中的标准扫描实现快20-40倍。 Mamba的推理吞吐量比类似大小的Transformer高出4-5倍，因为它可以使用更高的批处理大小而无需KV缓存。例如，未经训练的Mamba-6.9B的推理吞吐量高于小5倍的Transformer-1.3B。详细信息请参见附录E.5，其中包括对内存消耗基准测试。

扫描 vs 卷积 vs 注意力时间（A100 80GB PCle）在 A100 80GB 上的推断吞吐量（提示长度为 2048）

图8：(效率基准。左）训练：我们的高效扫描比标准实现快40倍。(右）推理：作为一个递归模型，Mamba 的吞吐量比 Transformer 高5倍。

4.6 模型消融

我们在我们的模型组件上进行了一系列详细的修剪，重点放在了与第4张图相同的设置下使用大小约为3.5亿的模型进行语言建模。

4.6.1 架构

表6研究了体系结构（块）及其内部SSM层（图3）的影响。我们发现

• 在之前的非选择性（LTI）SSM中，这些等同于全局卷积，在性能上非常相似。

• 用实值代替先前工作的复数值S4变体对性能影响不大，这表明（至少对于语言模型），在考虑硬件效率时，实值隐马尔可夫模型可能是更好的选择。

• 将其中任何一项替换为选择性SSM（S6）显着提高了性能，验证了第3节的动机。

• Mamba 架构与 H3 架构表现相似（使用选择性层时，似乎略好）。

我们在附录E.2.2中还研究了如何在 Mamba 块和其他块（如MLP（传统架构）MHA（混合注意力架构）之间交替。

4.6.2 选择性 SSM

表7考虑了不同的选择性A、B和C参数组合（算法2），通过移除选择性SSM层来实现，这表明由于与RNN门控有关，A是最关键的参数（定理1）。

表8考虑了不同的 SSM 初始值，这些初始值在某些数据模态和设置中被证明有很大的不同（Gu、Goel 和 Ré, 2022；Gu、Gupta 等人., 2022）。在语言建模方面，我们发现更简单的实数对角线初始化（S4D-Real，第 3 行）比更标准的复数值参数化（S4D-Lin，第 1 行）表现得更好。随机初始化也表现良好，与之前的研究结果一致（Mehta et al.2023）。

表9和表10分别考虑了A和(B，C)投影的维度变化。从静态到选择性进行更改可以带来最大的好处，而进一步增加维度通常会适度提高性能，并且参数数量的增加很小。

特别值得注意的是，当状态大小N增加时，选择性SSM 的显著改善，仅以额外1%的参数代价换取了超过1.0个困惑度的提高。这验证了我们在第3.1节和第3.3节中的核心动机。

5 讨论

我们讨论了相关工作、局限性和一些未来方向。

相关工作。附录A 讨论了选择机制与类似概念的关系。附录B 提供了对状态空间模型 (SSMs) 和其他相关模型的更深入讨论。

没有免费午餐：连续与离散光谱。结构化时序模型最初被定义为连续系统（1）的离散化，并且对诸如感知信号（例如音频、视频）等连续时间数据模式具有很强的归纳偏见。如第 3.1 和 3.5 节所述，选择机制克服了文本和 DNA 等离散模态上的缺点；但是这反过来可能会阻碍它们在 LTI 时序模型擅长的数据上的性能。我们对音频波形进行的消融研究更详细地检查了这种权衡。

下游能力。基于变压器的基础模型（尤其是 LLM）具有丰富的与预训练模型交互的属性和模式，例如微调、适应、提示、上下文学习、指令调整、RLHF、量化等。我们特别感兴趣的是，像 SSM 这样的变压器替代品是否具有类似的性质和功能。

缩放。我们的经验评估仅限于小模型大小，低于大多数强大的开源语言模型（例如Llama (Touvron等人，2023年)）以及诸如RWKV (B.Peng等人，2023年) 和RetNet (Y.Sun等人，2023年)等其他递归模型的阈值，这些模型已在70亿参数规模及更大范围内进行了评估。我们仍需要评估Mamba在这些较大尺寸下是否仍然具有优势。我们还指出，扩展SSMs可能涉及进一步的工程挑战和未在此论文中讨论的对模型的调整。

6 结论

我们为结构化状态空间模型引入了一种选择机制，使其能够在序列长度线性扩展的情况下执行上下文相关的推理。当集成到一个简单的无注意力架构中时，Mamba 在各种领域取得了最先进的结果，在这些领域它与或超过了强大的变压器模型的性能。我们对选择性状态空间模型在不同领域的基础模型中的广泛应用感到兴奋，特别是在需要长上下文的新兴模态（如基因组学、音频和视频）中。我们的结果表明，Mamba 是一种通用序列模型骨干的强大候选者。

鸣谢

我们感谢Karan Goel、Arjun Desai 和 Kush Bhatia 对草稿提出的宝贵反馈。

参考文献

Martin Arjovsky、Amar Shah 和 Yoshua Bengio。《单向演化递归神经网络》。在：国际机器学习会议 (ICML)。2016 年，第 1120-1128 页。

齐加·阿夫塞克，维克拉姆·阿加瓦尔，丹尼尔·维森廷，约瑟夫·R·莱德萨姆，阿格涅什卡·格拉布斯卡-巴温斯卡，凯尔·R·泰勒，扬尼斯·阿萨伊，约翰·朱珀，普梅特·科尔希和大卫·R·凯利。《通过整合长程相互作用从序列中有效预测基因表达》。在：Nature Methods 18.10 (2021 年) 第 10 页，第 1196-1203 页。

Jimmy Ba, Geoffrey E Hinton, Volodymyr Mnih, Joel Z Leibo 和 Catalin Ionescu。《使用快速权重来关注近期过去》。《神经信息处理系统会议（NeurIPS）》第29卷（2016年）。

吉米·雷·巴，杰米·瑞恩·柯罗斯和杰弗里·E·辛顿。《层归一化》。arXiv e-print arXiv:1607.06450 (2016 年)。

Dzmitry Bahdanau，Kyunghyun Cho 和 Yoshua Bengio。《通过联合学习对齐和翻译的神经机器翻译》。在：国际学习表示会议 (ICLR)。2015 年。

David Balduzzi 和 Muhammad Ghifary。《强类型递归神经网络》。在：国际机器学习会议，PMLR，2016 年，第 1292 至 1300 页。

Stella Biderman, Hailey Schoelkopf, Quentin Gregory Anthony, Herbie Bradley, Kyle O'Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, EdwardRaff 等。《Pythia：用于训练和扩展分析大型语言模型的工具包》。在国际机器学习会议 (ICML) 上发表。PMLR，2023 年，第 2397-2430 页。

Yonatan Bisk，Rowan Zellers，Jianfeng Gao，Yejin Choi 等人。《PIQA：自然语言中关于物理常识的推理》。在第34届人工智能协会会议上发表论文。2020年。