GCN and Mamba的理论相似性

持续更新ing

文章目录

[GCN and Mamba的理论相似性](#GCN and Mamba的理论相似性)
- 信号处理
- 傅里叶变换
- - [傅里叶变换 (FT)：从时间到频率 (The Decomposition)](#傅里叶变换 (FT)：从时间到频率 (The Decomposition))
  - - 数学公式
  - [逆傅里叶变换 (IFT)：从频率到时间 (The Reconstruction)](#逆傅里叶变换 (IFT)：从频率到时间 (The Reconstruction))
  - - 数学公式
  - [为什么要提到它？与 Mamba/S4 的关系](#为什么要提到它？与 Mamba/S4 的关系)
- [GCN------Spectral Graph Theory](#GCN——Spectral Graph Theory)
- - 图定义
  - 图谱理论中的低频与高频
  - 节点频率的解释
  - 图信号傅里叶变换与逆变换
  - 图信号的过滤
  - [ChebNet------Chebyshev 多项式递归](#ChebNet——Chebyshev 多项式递归)
  - [GCN------renormalization trick](#GCN——renormalization trick)
- SSM/S4/HiPPO/Mamba
- - 第一阶段：投影与系数提取
  - - [定义测度_ (Measure) 与空间](#定义测度 (Measure) _与空间)
    - [定义基底_ (Basis)](#定义基底 (Basis)_)
    - [最优系数提取_ (Projection)](#最优系数提取 (Projection)_)
  - 第二阶段：最优系数的动态变化
  - - 对系数求导
    - [推导矩阵 B (边界项)](#推导矩阵 B (边界项))
    - [推导矩阵 A (内部变化项)](#推导矩阵 A (内部变化项))
    - 连续时间微分方程 (ODE)
  - 第三阶段：离散化 (Discretization)
  - - 积分求解
    - [2. 导出离散参数](#2. 导出离散参数)
  - [第四阶段：Mamba 的选择性](#第四阶段：Mamba 的选择性)
  - - [静态 vs 动态](#静态 vs 动态)
    - 参数生成公式
    - 动态离散化
    - [4. 最终 Mamba 工作流](#4. 最终 Mamba 工作流)
  - 总结：从数学到代码
- [GCN 与 SSM/Mamba 的相似性](#GCN 与 SSM/Mamba 的相似性)
- - 经典傅里叶变换
  - 图傅里叶变换
  - [Mamba / HiPPO (State Space Models)](#Mamba / HiPPO (State Space Models))
  - Transformer (Self-Attention)
  - RNN

信号处理

N 维向量空间

a k a_k ak的定义

时域与频域的信号表达式

傅里叶变换

傅里叶变换认为，世界上的任何一段波（无论多复杂），都可以看作是一堆简单的"正弦波"叠加而成的。

傅里叶变换 (FT) ：是**"拆解"**的过程。把时域信号拆解为频域信号。
逆傅里叶变换 (IFT) ：是**"重组"**的过程。把频域信号还原为时域信号。

傅里叶变换 (FT)：从时间到频率 (The Decomposition)

目标：把一个随时间变化的信号 f ( t ) f(t) f(t)（比如一段录音波形），转换成随频率变化的函数 F ( ω ) F(\omega) F(ω)（比如乐谱）。

数学公式

F ( ω ) = ∫ − ∞ ∞ f ( t ) e − i ω t d t F(\omega) = \int_{-\infty}^{\infty} f(t) e^{-i\omega t} \, dt F(ω)=∫−∞∞f(t)e−iωtdt

f ( t ) f(t) f(t)：原始信号。
e − i ω t e^{-i\omega t} e−iωt："筛子"。根据欧拉公式 e − i x = cos ⁡ x − i sin ⁡ x e^{-ix} = \cos x - i\sin x e−ix=cosx−isinx，它代表一个频率为 ω \omega ω 的螺旋线（或正弦波）。
积分 ∫ \int ∫：就是计算"内积"或"相关性"。它在问："信号 f ( t ) f(t) f(t) 和频率 ω \omega ω 的正弦波有多像？"
- F ( ω ) F(\omega) F(ω)：结果。它告诉我们在频率 ω \omega ω 处，信号的振幅（有多响）和相位（什么时候开始响）。

逆傅里叶变换 (IFT)：从频率到时间 (The Reconstruction)

目标：已知每个频率的成分 F ( ω ) F(\omega) F(ω)，把它们加起来，还原回原始波形 f ( t ) f(t) f(t)。

数学公式

f ( t ) = 1 2 π ∫ − ∞ ∞ F ( ω ) e i ω t d ω f(t) = \frac{1}{2\pi} \int_{-\infty}^{\infty} F(\omega) e^{i\omega t} \, d\omega f(t)=2π1∫−∞∞F(ω)eiωtdω

F ( ω ) F(\omega) F(ω)：配方表（各个频率的权重）。
e i ω t e^{i\omega t} eiωt：原材料（各个频率的正弦波）。
积分 ∫ \int ∫：把所有原材料按照配方表加起来（叠加）。
f ( t ) f(t) f(t)：还原出的原始信号。

为什么要提到它？与 Mamba/S4 的关系

在你之前关于 Mamba 的问题中，我们提到了 FFT（快速傅里叶变换）和卷积定理。

卷积定理：时域上的卷积 = 频域上的乘法。

Convolution ( f , g ) ↔ F ( ω ) ⋅ G ( ω ) \text{Convolution}(f, g) \leftrightarrow F(\omega) \cdot G(\omega) Convolution(f,g)↔F(ω)⋅G(ω)

S4 的策略：

S4 是线性时不变系统（LTI），它的计算本质是卷积。卷积很难算（ O ( N 2 ) O(N^2) O(N2)）。

所以 S4 先用 FT 把信号变成频谱，做简单的乘法（ O ( N ) O(N) O(N)），再用 IFT 变回来。这大大加速了计算。

Mamba 的策略：

Mamba 的参数是随时间变的（不是 LTI），所以不能用卷积定理，也就不能用 FFT 加速。因此，Mamba 被迫发明了**"并行扫描 (Parallel Scan)"** 算法来替代 FFT 的地位。

GCN------Spectral Graph Theory

图定义

图的特征定义

example

图谱理论中的低频与高频

节点频率的解释

TODO：这里的 Power 和 Mamba 里的概率度量有没有什么联系？

图信号傅里叶变换与逆变换

傅里叶变换

逆傅里叶变换

图信号的过滤

Filtering

图谱信号过滤

这里的过滤其实就是在做注意力机制的过程！他从频率的角度聚合历史信号，筛选有用的频率信号。

图谱信号过滤后逆傅里叶变换

图谱理论中过滤函数（频率反应）的选择------问题 1：学习复杂度与输入长度线性相关

图谱理论中过滤函数（频率反应）的选择------问题 2：信号卷积过程非 localize（即聚合了其他非相关节点）

ChebNet------Chebyshev 多项式递归

https://arxiv.org/pdf/1606.09375.pdf

针对问题 1、2 的解决方案------多项式参数

只用学多项式函数的系数就可以了。

出现问题 3：时间复杂度为 O ( N 2 ) O(N^2) O(N2)

针对问题 3 的解决方案------Chebyshev 多项式

可以递归的多项式的好处是什么呢？

GCN------renormalization trick

SSM/S4/HiPPO/Mamba

为了彻底理解 Mamba 的底层逻辑，将这个过程拆解为四个阶段：函数逼近（投影） → \to →微分方程推导（HiPPO） → \to →离散化（SSM） → \to →选择性参数化（Mamba）。

第一阶段：投影与系数提取

目标：将一段连续的历史函数 f ( τ ) f(\tau) f(τ)（其中 τ ≤ t \tau \le t τ≤t），压缩成一个有限维的向量 c ( t ) c(t) c(t)。

定义测度(Measure)与空间

Mamba (基于 HiPPO-LegS) 关心的是过去 [ 0 , t ] [0, t] [0,t] 窗口内的所有信息，且权重相等。我们定义缩放勒让德测度 (Scaled Legendre Measure, LegS）：

μ ( t ) ( x ) = 1 t I [ 0 , t ] ( x ) \mu^{(t)}(x) = \frac{1}{t} \mathbb{I}_{[0, t]}(x) μ(t)(x)=t1I[0,t](x)

这表示在区间 [ 0 , t ] [0, t] [0,t] 上是均匀分布，密度为 1 / t 1/t 1/t。

定义基底(Basis)

在这个测度下，我们要寻找一组正交多项式基底 P n ( t ) ( x ) P_n^{(t)}(x) Pn(t)(x)。数学上对应的就是移位勒让德多项式*(Shifted Legendre Polynomials)*。

它们满足正交性：

⟨ P n ( t ) , P m ( t ) ⟩ μ ( t ) = ∫ 0 t P n ( t ) ( x ) P m ( t ) ( x ) 1 t d x = δ n m \langle P_n^{(t)}, P_m^{(t)} \rangle_{\mu^{(t)}} = \int_0^t P_n^{(t)}(x) P_m^{(t)}(x) \frac{1}{t} dx = \delta_{nm} ⟨Pn(t),Pm(t)⟩μ(t)=∫0tPn(t)(x)Pm(t)(x)t1dx=δnm

这里的 δ n m \delta_{nm} δnm是数学中一个非常著名的符号，叫做 克罗内克 δ \delta δ 函数 _(Kronecker Delta)_。

它的定义非常简单，就是一个**"二值开关"**：

δ n m = { 1 如果 n = m 0 如果 n ≠ m \delta_{nm} = \begin{cases} 1 & \text{如果 } n = m \\ 0 & \text{如果 } n \neq m \end{cases} δnm={10如果 n=m如果 n=m

在这个积分公式中，它代表了基函数 P n ( t ) P_n^{(t)} Pn(t)和 P m ( t ) P_m^{(t)} Pm(t)之间的正交归一性。

最优系数提取(Projection)

要在时刻 t t t 用一个多项式 g ( t ) ( x ) g^{(t)}(x) g(t)(x) 去逼近历史 f ( x ) f(x) f(x)，使得误差 ∫ 0 t ∣ f ( x ) − g ( t ) ( x ) ∣ 2 d μ \int_0^t |f(x) - g^{(t)}(x)|^2 d\mu ∫0t∣f(x)−g(t)(x)∣2dμ 最小。

根据希尔伯特空间投影定理，最优系数 c n ( t ) c_n(t) cn(t) 就是 f ( x ) f(x) f(x) 在基底上的内积：

c n ( t ) = ∫ 0 t f ( x ) P n ( x t ) 1 t d x \boxed{ c_n(t) = \int_0^t f(x) P_n\left(\frac{x}{t}\right) \frac{1}{t} dx } cn(t)=∫0tf(x)Pn(tx)t1dx

c ( t ) ∈ R N c(t) \in \mathbb{R}^N c(t)∈RN 就是隐藏状态 (Hidden State) ，即 h ( t ) h(t) h(t)。

这个公式不仅提取了系数，还定义了 h ( t ) h(t) h(t) 的物理含义：积分 ∫ \int ∫就是计算"内积"或"相关性"。它在问："信号 f ( x ) f(x) f(x) 和多项式 P n ( x t ) 1 t P_n\left(\frac{x}{t}\right) \frac{1}{t} Pn(tx)t1 有多像？"

这个和傅里叶变换公式超级像！就是"广义傅里叶变换"

第二阶段：最优系数的动态变化

目标：每次一个输入进来，我们不能每一步都重新算上面那个积分。我们需要找到 c ˙ ( t ) \dot{c}(t) c˙(t)（系数随时间变化的导数），从而得到微分方程。

对系数求导

对 c n ( t ) c_n(t) cn(t) 关于 t t t 求导，利用莱布尼茨积分法则：

d d t c n ( t ) = d d t ∫ 0 t 1 t f ( x ) P n ( x t ) d x \frac{d}{dt} c_n(t) = \frac{d}{dt} \int_0^t \frac{1}{t} f(x) P_n\left(\frac{x}{t}\right) dx dtdcn(t)=dtd∫0tt1f(x)Pn(tx)dx

求导结果会分裂为两项：边界项 （新数据）和积分内部求导项（旧记忆维护）。

c ˙ n ( t ) = 1 t f ( t ) P n ( 1 ) ⏟ 边界项 (Term 1) + ∫ 0 t f ( x ) ∂ ∂ t [ 1 t P n ( x t ) ] d x ⏟ 内部变化项 (Term 2) \dot{c}n(t) = \underbrace{\frac{1}{t} f(t) P_n(1)}{\text{边界项 (Term 1)}} + \underbrace{\int_0^t f(x) \frac{\partial}{\partial t} \left[ \frac{1}{t} P_n\left(\frac{x}{t}\right) \right] dx}_{\text{内部变化项 (Term 2)}} c˙n(t)=边界项 (Term 1) t1f(t)Pn(1)+内部变化项 (Term 2) ∫0tf(x)∂t∂[t1Pn(tx)]dx

推导矩阵 B (边界项)

Term 1 代表当前时刻 x = t x=t x=t 的输入。
代入 P n ( 1 ) P_n(1) Pn(1) 的性质（勒让德多项式在端点的值）： P n ( 1 ) = 2 n + 1 P_n(1) = \sqrt{2n+1} Pn(1)=2n+1 (归一化后)。
这就是矩阵 B B B 的来源：

B n = 2 n + 1 B_n = \sqrt{2n+1} Bn=2n+1

推导矩阵 A (内部变化项)

我们需要计算 ∂ ∂ t [ 1 t P n ( x t ) ] \frac{\partial}{\partial t} [\frac{1}{t} P_n(\frac{x}{t})] ∂t∂[t1Pn(tx)]。利用勒让德多项式的导数性质： ( 2 n + 1 ) P n ( x ) = d d x [ P n + 1 ( x ) − P n − 1 ( x ) ] (2n+1)P_n(x) = \frac{d}{dx}[P_{n+1}(x) - P_{n-1}(x)] (2n+1)Pn(x)=dxd[Pn+1(x)−Pn−1(x)] 以及递归关系。经过一系列推导，会发现导数项可以被完美地表示为低阶多项式系数的线性组合：

Term 2 = − 1 t ∑ k = 0 n A n k c k ( t ) \text{Term 2} = -\frac{1}{t} \sum_{k=0}^{n} A_{nk} c_k(t) Term 2=−t1∑k=0nAnkck(t)

其中 A A A 是一个特定的下三角矩阵（HiPPO Matrix）：

连续时间微分方程 (ODE)

将上述两部分合并，我们得到了完美的连续时间状态方程：

c ˙ ( t ) = 1 t A c ( t ) + B f ( t ) \boxed{ \dot{c}(t) = \frac{1}{t} A c(t) + B f(t) } c˙(t)=t1Ac(t)+Bf(t)

这就是 HiPPO 赋予 Mamba 的**"数学骨架"** 。它保证了无论 t t t 怎么变， c ( t ) c(t) c(t) 永远是最优逼近系数。

第三阶段：离散化 (Discretization)

目标：计算机是离散的，我们需要把连续的 h ˙ = A h + B x \dot{h} = Ah + Bx h˙=Ah+Bx 变成递归公式 h t = A ˉ h t − 1 + B ˉ x t h_t = \bar{A} h_{t-1} + \bar{B} x_t ht=Aˉht−1+Bˉxt。我们使用 零阶保持 (Zero-Order Hold, ZOH) 假设：假设在时间步长 Δ \Delta Δ 内，输入 x ( t ) x(t) x(t) 保持不变。

积分求解

在区间 [ t , t + Δ ] [t, t+\Delta] [t,t+Δ] 上求解微分方程：

h ( t + Δ ) = e Δ A h ( t ) + ∫ t t + Δ e ( t + Δ − τ ) A B x ( τ ) d τ h(t+\Delta) = e^{\Delta A} h(t) + \int_t^{t+\Delta} e^{(t+\Delta-\tau)A} B x(\tau) d\tau h(t+Δ)=eΔAh(t)+∫tt+Δe(t+Δ−τ)ABx(τ)dτ

2. 导出离散参数

由于假设 x ( τ ) x(\tau) x(τ) 在该区间是常数 x k x_k xk，可以提取出来：

状态转移矩阵 A ˉ \bar{A} Aˉ：

A ˉ = exp ⁡ ( Δ A ) \bar{A} = \exp(\Delta A) Aˉ=exp(ΔA)

输入矩阵 B ˉ \bar{B} Bˉ：

B ˉ = ( ∫ 0 Δ e τ A d τ ) B = A − 1 ( e Δ A − I ) B \bar{B} = \left( \int_0^\Delta e^{\tau A} d\tau \right) B = A^{-1} (e^{\Delta A} - I) B Bˉ=(∫0ΔeτAdτ)B=A−1(eΔA−I)B

最终得到 SSM 的标准递归形式：

h t = A ˉ h t − 1 + B ˉ x t \boxed{ h_t = \bar{A} h_{t-1} + \bar{B} x_t } ht=Aˉht−1+Bˉxt

第四阶段：Mamba 的选择性

目标：打破 S4 的线性时不变（LTI）限制，让参数随输入变化。

静态 vs 动态

S4 (静态): Δ , B , C \Delta, B, C Δ,B,C 对所有时刻 t t t 都是固定的常数。

h t = A ˉ h t − 1 + B ˉ x t h_t = \bar{A} h_{t-1} + \bar{B} x_t ht=Aˉht−1+Bˉxt

(这里的 A ˉ , B ˉ \bar{A}, \bar{B} Aˉ,Bˉ 永远不变)

Mamba (动态) : 参数由当前输入 x t x_t xt 生成。

参数生成公式

Δ t = Softplus ( Parameter + Linear Δ ( x t ) ) B t = Linear B ( x t ) C t = Linear C ( x t ) \begin{aligned} \Delta_t &= \text{Softplus}(\text{Parameter} + \text{Linear}{\Delta}(x_t)) \\ B_t &= \text{Linear}{B}(x_t) \\ C_t &= \text{Linear}_{C}(x_t) \end{aligned} ΔtBtCt=Softplus(Parameter+LinearΔ(xt))=LinearB(xt)=LinearC(xt)

动态离散化

因为 Δ t \Delta_t Δt 变了，每一步的离散化矩阵 A ˉ \bar{A} Aˉ 和 B ˉ \bar{B} Bˉ 都在变！

A ˉ t = exp ⁡ ( Δ t A ) B ˉ t = ( Δ t A ) − 1 ( exp ⁡ ( Δ t A ) − I ) ⋅ Δ t B t \begin{aligned} \bar{A}_t &= \exp(\Delta_t A) \\ \bar{B}_t &= (\Delta_t A)^{-1} (\exp(\Delta_t A) - I) \cdot \Delta_t B_t \end{aligned} AˉtBˉt=exp(ΔtA)=(ΔtA)−1(exp(ΔtA)−I)⋅ΔtBt

4. 最终 Mamba 工作流

h t = A ˉ t h t − 1 + B ˉ t x t \boxed{ h_t = \bar{A}t h{t-1} + \bar{B}_t x_t } ht=Aˉtht−1+Bˉtxt

y t = C t h t \boxed{ y_t = C_t h_t } yt=Ctht

总结：从数学到代码

投影：告诉我们需要 HiPPO 矩阵 A ，这定义了 h ( t ) h(t) h(t) 是"记忆压缩系数"。
微分：推导出了 h ˙ = A h + B x \dot{h} = Ah + Bx h˙=Ah+Bx 的形式，这使得我们可以用状态空间来维护这个记忆。
离散化 ：引入了 Δ \Delta Δ，将微分方程变成了计算机能跑的递归 A ˉ , B ˉ \bar{A}, \bar{B} Aˉ,Bˉ。
Mamba ：让 Δ \Delta Δ随输入变化 。
- 当 Δ t → 0 \Delta_t \to 0 Δt→0， A ˉ t → I \bar{A}_t \to I Aˉt→I（单位矩阵）， B ˉ t → 0 \bar{B}_t \to 0 Bˉt→0 ⟹ \implies ⟹保持记忆，忽略输入。
- 当 Δ t → ∞ \Delta_t \to \infty Δt→∞， A ˉ t → 0 \bar{A}_t \to 0 Aˉt→0， B ˉ t → large \bar{B}_t \to \text{large} Bˉt→large ⟹ \implies ⟹遗忘历史，强力写入。

GCN 与 SSM/Mamba 的相似性

要理解架构的本质联系，我们必须看它们是如何定义**"空间"，以及在这个空间上使用什么样的"算子"和"基底"**来分解和处理信息。

经典傅里叶变换

F ( ω ) = ∫ − ∞ ∞ f ( t ) e − i ω t d t F(\omega) = \int_{-\infty}^{\infty} f(t) e^{-i\omega t} \, dt F(ω)=∫−∞∞f(t)e−iωtdt
f ( t ) = 1 2 π ∫ − ∞ ∞ F ( ω ) e i ω t d ω f(t) = \frac{1}{2\pi} \int_{-\infty}^{\infty} F(\omega) e^{i\omega t} \, d\omega f(t)=2π1∫−∞∞F(ω)eiωtdω

物理场景：连续的欧几里得空间（比如一根无限长的直线，或者时间轴）。
基函数 ：正弦波 e − i ω t e^{-i\omega t} e−iωt。
为什么选正弦波？
- 因为正弦波是微分算子的特征函数！
  - d 2 d t 2 ( e − i ω t ) = − ω 2 e − i ω t \frac{d^2}{dt^2}(e^{-i\omega t}) = -\omega^2 e^{-i\omega t} dt2d2(e−iωt)=−ω2e−iωt。
- 对它求导两次，它变回了自己，只多了一个常数 − ω 2 -\omega^2 −ω2（特征值）。这意味着在求导运算（LTI 系统基础）下，正弦波是最稳定的基底，可以把微积分变成简单的乘法。

图傅里叶变换

物理场景：离散的非欧几里得空间（比如社交网络，节点是人，边是关系）。没有连续的"上下左右"，只有拓扑连接。
基函数 ：矩阵 L L L 的特征向量 (Eigenvectors, U U U)。
为什么选这些向量？
- 因为 L u l = λ l u l L u_l = \lambda_l u_l Lul=λlul。
- 这些特征向量 u l u_l ul 代表了图上的"驻波"模式。
  - λ l \lambda_l λl（特征值）越小，代表这个向量在图上变化越平缓（低频，平滑信号）； λ l \lambda_l λl 越大，代表相邻节点差异剧烈（高频，噪声或边缘）。这是在不规则拓扑上定义**"频率"**的数学方式。

Mamba / HiPPO (State Space Models)

h n ( t ) = ∫ 0 t f ( x ) P n ( x t ) 1 t d x \boxed{ h_n(t) = \int_0^t f(x) P_n\left(\frac{x}{t}\right) \frac{1}{t} dx } hn(t)=∫0tf(x)Pn(tx)t1dx

h t = A ˉ h t − 1 + B ˉ x t \boxed{ h_t = \bar{A} h_{t-1} + \bar{B} x_t } ht=Aˉht−1+Bˉxt

f ( x ) ≈ ∑ n = 0 N − 1 h n ( t ) ⋅ P n ( x t ) ⋅ ( 2 n + 1 ) \boxed{ f(x) \approx \sum_{n=0}^{N-1} h_n(t) \cdot P_n\left(\frac{x}{t}\right) \cdot (2n+1) } f(x)≈n=0∑N−1hn(t)⋅Pn(tx)⋅(2n+1)

y t = C t h t \boxed{ y_t = C_t h_t } yt=Ctht

(注：具体的常数因子 ( 2 n + 1 ) (2n+1) (2n+1)取决于勒让德多项式的具体归一化定义，但核心思想是加权求和)

物理场景：在线的流式历史空间。时间不断推移，我们需要把无限的过去压缩进有限的"状态"中。
基函数 ：正交多项式（主要是勒让德多项式 P n ( t ) ( x ) P_n^{(t)}(x) Pn(t)(x)）。
为什么选多项式？
- 因为它们是关于度量 μ ( t ) \mu(t) μ(t)（如 1 / t 1/t 1/t）正交的。
- 这种正交性允许我们通过一个简单的线性递推公式（也就是 Mamba 的核心 h ˙ = A h + B x \dot{h} = Ah + Bx h˙=Ah+Bx）来实时更新系数，而不需要重新计算整个历史的积分。
- 矩阵 A A A 本质上就是**"多项式基底在时间拉伸下的导数变换矩阵"**。它保证了我们始终在用一组最优的基底去逼近历史曲线。

Transformer (Self-Attention)

物理场景 ：语义关系空间（Semantic Space）。序列中的每个 Token 都可以看作一个节点，它们之间构成了一个全连接图，但边的权重是动态的。
基函数：动态的、输入相关的基底。
为什么选这种机制？
- 与前三者不同，Transformer 不使用固定的正弦波、固定的图特征向量或固定的多项式。
- 它通过 Q Q Q（查询）和 K K K（键）的内积，现场学习出一组基底（关注点）。
- "语义共鸣" ：如果 Token A 和 Token B 的语义相似（ q A ⋅ k B q_A \cdot k_B qA⋅kB 大），它们就形成强连接。这相当于针对每一个具体的输入句子，现场构建了一个最适合该句子的"图傅里叶变换"，去提取特征。

RNN

物理场景 ：离散的时间序列。每一步是一个离散的时刻 t t t。
基底类型 ：隐式的、由权重矩阵 W W W决定的特征向量。
为什么选这种机制？（以及它的痛点）
- 机制：RNN 试图通过不断乘以矩阵 W W W 来把过去的信息"传递"到未来。这相当于把信息投影在 W W W 的特征向量上进行演化。
- 痛点（梯度消失/爆炸） ：
  - 因为 W W W 是一个普通的、可学习的矩阵，它的特征值 λ \lambda λ 不受数学约束。
  - 随着时间 t t t 推移，历史信息实际上被乘以了 W t W^t Wt（矩阵的 t t t 次方）。
  - 如果特征值 ∣ λ ∣ < 1 |\lambda| < 1 ∣λ∣<1，基底衰减，记忆消失；
  - 如果特征值 ∣ λ ∣ > 1 |\lambda| > 1 ∣λ∣>1，基底膨胀，记忆爆炸。
对比 Mamba ：Mamba (HiPPO) 实际上就是手动设计了一个完美的 W W W矩阵（即离散化后的 A ˉ \bar{A} Aˉ**）** ，强行保证了其特征值的数学性质能完美保留长记忆，而不是让神经网络自己去"瞎猜"一个 W W W。

GCN and Mamba的 理论相似性