大模型架构的真正主线：从统计语言模型到信息流控制系统

这篇文章要解决什么问题

如果只是问：

RoPE 是什么
FlashAttention 是什么
Attention Residuals 是什么
Kimi 在做什么

那么你得到的大概率只是若干技术简介。

但真正有价值的问题不是这个。

真正有价值的问题是：

这些工作为什么会在这几年同时出现，它们分别在修正哪一层历史遗留问题，它们最终会把大模型带到哪里去。

换句话说，我们不应该把这些工作看成若干孤立模块，而要把它们看成：

同一个长历史中的不同阶段性修正。

我下面会按五个层次展开：

先讲一条足够长的历史线
再建立一个统一数学框架
再解释各类代表工作到底在修正什么
再给出一个更强的未来预测框架
最后给出可证伪的判断，而不是空泛口号

一、真正的历史线，要从 Transformer 之前很久开始

1. 统计语言模型阶段：问题第一次被写成条件概率链

语言建模最基本的形式是：

P ( x 1 : n ) = ∏ t = 1 n P ( x t ∣ x 1 : t − 1 ) P(x_{1:n}) = \prod_{t=1}^{n} P(x_t \mid x_{1:t-1}) P(x1:n)=t=1∏nP(xt∣x1:t−1)

这是一个极其重要的起点。

因为它意味着：

语言理解和生成，从一开始就是一个"历史如何影响当前"的问题。

但传统统计模型很快碰到组合爆炸，于是只能用截断近似：

P ( x t ∣ x 1 : t − 1 ) ≈ P ( x t ∣ x t − k : t − 1 ) P(x_t \mid x_{1:t-1}) \approx P(x_t \mid x_{t-k:t-1}) P(xt∣x1:t−1)≈P(xt∣xt−k:t−1)

这一步虽然是工程妥协，却埋下了后面几十年所有工作的母命题：

真实依赖很长，但可计算依赖很短。

这个矛盾在今天没有消失，只是换了形式。

当年它表现为：

n-gram 的窗口有限

今天它表现为：

context window 有限
KV cache 有限
memory budget 有限

形式变了，问题没变。

2. 神经网络语言模型阶段：离散稀疏变成连续表示

神经网络语言模型把符号映射到向量空间，再在连续空间上学习条件概率。

这一步真正重要的，不只是效果提升，而是把整个序列建模问题搬进了一个更有几何结构的空间。

从此以后：

词之间有了距离
表示之间有了连续过渡
模型可以通过共享参数处理相似结构

这一步的历史意义非常大，因为后面所有 attention、memory、routing，都是建立在"先有连续表示空间"这个前提上的。

3. RNN 阶段：第一次把"历史"写成状态演化

RNN 把序列建模写成：

h t = f θ ( h t − 1 , x t ) , y t = g θ ( h t ) h_t = f_\theta(h_{t-1}, x_t), \qquad y_t = g_\theta(h_t) ht=fθ(ht−1,xt),yt=gθ(ht)

这是第一次认真地把"历史"压进一个随时间演化的状态变量里。

从更抽象的角度看，这一步意味着：

语言模型不再只是条件概率表，而是一个离散动力系统。

这件事非常深，因为它引入了两个今天仍然没有过时的思想：

历史可以通过状态递归压缩
学习问题本质上也是一个稳定传播问题

但 RNN 很快暴露出核心极限。

如果看梯度传播：

∂ h t ∂ h t − k = ∏ i = t − k + 1 t ∂ h i ∂ h i − 1 \frac{\partial h_t}{\partial h_{t-k}}= \prod_{i=t-k+1}^{t} \frac{\partial h_i}{\partial h_{i-1}} ∂ht−k∂ht=i=t−k+1∏t∂hi−1∂hi

那么只要雅可比乘积长期偏离稳定区间，就会出现：

梯度消失
梯度爆炸

这说明：

仅仅有状态递归还不够，状态递归本身也必须被精心设计。

4. LSTM/GRU 阶段：记忆第一次成为独立架构对象

LSTM 的真正历史地位，不是"RNN 的改良版"，而是：

它第一次承认记忆不能靠普通非线性单元顺带学出来，必须被单独保护。

这在今天非常重要，因为很多人以为 external memory、persistent memory 是最近几年才有的思想。

其实不是。

真正的祖先是 LSTM 这一类工作。

它最早明确说出：

要想让长期影响不塌缩，必须给记忆一条低阻路径和可控门机制。

所以从历史上看，memory 路线不是 Transformer 之后的新发明，而是：

被 attention 暂时压过去，但从未真正消失的主线。

5. Seq2Seq 阶段：固定瓶颈问题第一次被大规模暴露

Seq2Seq 的基本形式是：

z = E n c o d e r ( x 1 : n ) , y 1 : m = D e c o d e r ( z ) z = \mathrm{Encoder}(x_{1:n}), \qquad y_{1:m} = \mathrm{Decoder}(z) z=Encoder(x1:n),y1:m=Decoder(z)

早期的关键假设是：

可以把整个输入历史压缩成一个固定维度的向量 z z z。

这个假设很快就碰到极限。

原因很简单：

当输入变长、任务变复杂时，固定瓶颈会迫使大量任务相关信息竞争同一小空间。

这实际上是今天很多问题的最早版本：

有限上下文窗口
有限状态容量
有限 KV cache
有限工作记忆

所以你可以把今天所有"如何组织长历史"的工作，都看成在继续回答一个 2014 年就已经暴露出来的问题：

单点压缩足够吗。

答案显然是不够。

6. Attention 的出现：历史不再需要先被完全压缩，再被使用

Bahdanau attention 的历史意义极高。

它指出了一个非常关键的问题：固定长度向量是瓶颈。这一点在原始论文摘要里直接说得很明确，作者认为固定长度向量的使用是 encoder-decoder 提升性能的瓶颈之一来源。

这件事带来的范式转移是：

当前决策不再必须只依赖一个压缩后的全局摘要，而可以按需访问历史的不同部分。

如果一定要用一句数学化的话总结 attention 的出现，那就是：

信息组织方式从"先整体压缩，再统一使用"，转向"保留局部表示，再按需访问"。

这件事后来几乎改写了整个序列建模世界。

7. Transformer 的出现：全局可访问、全并行、层级更新第一次合体

2017 年 Transformer 的胜利，不只是引入 self-attention，而是把三件事合成到了一个极高效的系统中：

全局可访问
全并行
分层堆叠更新

attention 公式是：

A t t n ( Q , K , V ) = s o f t m a x ( Q K ⊤ d ) V \mathrm{Attn}(Q,K,V)= \mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V Attn(Q,K,V)=softmax(d QK⊤)V

真正关键的是矩阵：

A = s o f t m a x ( Q K ⊤ d ) A = \mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right) A=softmax(d QK⊤)

它是一个输入依赖的全局耦合矩阵。

你可以把 Transformer 的本质理解成：

每一层都在重新构造一张"谁该影响谁"的动态全局图。

这比 RNN 的局部时间传播强太多，也比固定瓶颈的 Seq2Seq 自由太多。

但它一上来就带着三个巨大后果：

计算成本平方增长
远程依赖不代表远程影响稳定
深层堆叠会引入新的训练动力学问题

也就是说，Transformer 的历史意义不是"把问题解决了"，而是：

它把问题从递归稳定性转移到了全局信息流组织、预算和稳定性的新层面。

二、如果按 2014 到 2026 年分阶段，大模型历史可以更细地切成八段

1990s 统计语言模型局部窗口近似 1997 LSTM 显式记忆通路 2014 Seq2Seq 固定瓶颈暴露 2014-2015 Bahdanau/Luong Attention 按需访问历史 2017 Transformer 全局并行信息流 2020 Scaling Laws 容量与计算规律显性化 2021-2023 RoPE FlashAttention MoE Long Context 位置访存路由上下文预算 2023-2026 RAG Memory Agent RetNet Kimi类静态前向走向状态系统大模型架构主线时间轴

下面把这八段再压深。

第一段：统计时代关心的是"如何估计"，不是"如何表示"

那时的问题是：

在有限数据下，如何可靠估计条件概率。

今天的问题则变成：

在有限预算下，如何组织有效信息流。

这说明问题重心从统计估计，转向了计算-表示-决策的联立问题。

第二段：LSTM 首次把"保持长期影响"变成架构设计目标

这一步对未来的意义，不只是性能，而是一个哲学判断：

如果你不显式为长期影响设计通路，模型自己未必会学出来。

今天很多 memory 路线，本质上仍然在重复这个判断。

第三段：Seq2Seq 暴露了"全局摘要主义"的局限

单个摘要向量承受不了所有任务相关信息。

今天的很多工作其实还是在继续回答这个问题，只不过摘要对象换成了：

长窗口
长缓存
长记忆

第四段：Attention 让"选择性访问"第一次压过"统一压缩"

这是一个非常大的范式转移。

过去是在问：

如何压好一个摘要。

后来变成问：

如何学好一个访问分布。

今天的 routing、retrieval、memory，其实都在延长这条线。

第五段：Transformer 让"访问分布"变成了系统中心

一旦自注意力成为核心，整个系统就在围绕动态依赖矩阵运转。

这件事带来的后果极大：

一切都能互看
一切都变昂贵
一切都需要新的稳定性设计

第六段：Scaling Laws 让行业第一次看到"规模不是玄学，而是规律"

2020 年的 Scaling Laws for Neural Language Models 说明，交叉熵损失会随模型规模、数据规模和训练计算量呈现幂律变化来源。

这篇工作的历史地位不只是提供了经验曲线，而是给整个行业一个判断：

先把架构大体定住，规模本身就能释放大量能力。

这导致了一个阶段性的行业倾向：

大量资源被投入"更大模型 + 更多数据 + 更多算力"的路径。

这条路径确实极其成功。

但它也把一些更深层的问题暂时压后了，比如：

训练分布是否匹配真实推理分布
注意力是否真的是长期最优计算范式
模型是否需要更明确的状态与记忆系统

第七段：2021 到 2023 年，行业开始意识到"够大"不等于"够长、够快、够稳"

这一阶段出现了一批看起来分散、其实目标高度统一的工作。

RoPE 通过旋转位置编码把相对位置信息直接嵌进 self-attention 来源。
FlashAttention 则把注意力计算写成 IO-aware 算法，强调真正的瓶颈不只是算术复杂度，还有 GPU 存储层级之间的读写开销来源。

这两类工作表面差异很大，实则都在修正 Transformer 的现实边界：

一类修相对位置与长序列表示
一类修长序列下的部署与计算代价

第八段：2023 到 2026 年，模型开始从"函数"逼近"系统"

这一阶段最值得重视的，不是某个单点模块，而是整体走向：

RAG 承认知识可以外置
memory 承认历史需要分层存储
agent 承认任务需要多步状态更新
RetNet 一类工作重新把 recurrence 与 attention 统一起来，强调训练并行和低成本推理可以兼得来源
Kimi 一类系统则更明确地把长上下文、记忆、采样与多步推理组织到一起

如果说 2017 到 2020 年的主线是"把 Transformer 做大"，那么 2023 到 2026 年的主线更像是：

开始重新思考，单次全量前向是不是复杂智能活动的最终载体。

三、统一数学框架：这些工作争夺的其实是"带预算约束的信息流泛函"

如果要像数学家那样看问题，我们不能停在技术名词。

我们需要定义真正的对象。

1. 序列模型是一个带预算的非线性算子

设输入序列嵌入后为：

h ( 0 ) = ( h 1 ( 0 ) , ... , h n ( 0 ) ) ∈ ( R d ) n h^{(0)} = (h_1^{(0)}, \dots, h_n^{(0)}) \in (\mathbb{R}^d)^n h(0)=(h1(0),...,hn(0))∈(Rd)n

深层模型记作：

T θ : ( R d ) n → ( R d ) n \mathcal{T}_\theta : (\mathbb{R}^d)^n \to (\mathbb{R}^d)^n Tθ:(Rd)n→(Rd)n

并满足预算约束：

C ( θ , n ) ≤ B \mathcal{C}(\theta,n) \le B C(θ,n)≤B

这里的 C \mathcal{C} C 不只是 FLOPs，而应包括：

算术计算
显存占用
带宽读写
解码延迟
缓存压力

也就是说，真正的问题从来都不是：

最强算子是什么。

而是：

在预算 B B B 下，最优信息流算子是什么。

2. 定义局部影响算子

第 ℓ \ell ℓ 层从位置 j j j 到位置 i i i 的局部影响记为：

J i j ( ℓ ) : = ∂ h i ( ℓ + 1 ) ∂ h j ( ℓ ) \mathcal{J}_{ij}^{(\ell)} := \frac{\partial h_i^{(\ell+1)}}{\partial h_j^{(\ell)}} Jij(ℓ):=∂hj(ℓ)∂hi(ℓ+1)

这刻画一层里谁影响谁。

3. 定义端到端影响算子

输入位置 j j j 对最终位置 i i i 的总影响记为：

G i j ( L ) : = ∂ h i ( L ) ∂ h j ( 0 ) \mathcal{G}_{ij}^{(L)} := \frac{\partial h_i^{(L)}}{\partial h_j^{(0)}} Gij(L):=∂hj(0)∂hi(L)

这是我认为最关键的统一对象。

因为它直接回答：

一个早期信息片段在最终决策里到底还有没有影响力。

4. 定义任务相关信息流泛函

给定任务权重矩阵 W = ( w i j ) W=(w_{ij}) W=(wij)，定义：

Φ ( θ ; W ) : = ∑ i , j w i j ∥ G i j ( L ) ∥ o p \Phi(\theta;W) := \sum_{i,j} w_{ij} \left\| \mathcal{G}{ij}^{(L)} \right\|{\mathrm{op}} Φ(θ;W):=i,j∑wij Gij(L) op

再定义预算归一化效率：

Ψ ( θ ; W ) : = Φ ( θ ; W ) C ( θ , n ) \Psi(\theta;W) := \frac{\Phi(\theta;W)}{\mathcal{C}(\theta,n)} Ψ(θ;W):=C(θ,n)Φ(θ;W)

这个量不是教科书标准定义，但它非常适合统一视角。

因为：

RoPE 主要改的是哪些远距离依赖能在核函数上被表示
FlashAttention 主要改的是同一算子的实现成本
Attention Residuals 主要改的是端到端影响到底能否真正穿过关键模块
Kimi/Memory/Routing 主要改的是在预算有限时，哪些信息路径值得优先保真

所以这些工作表面不同，实则都在争：

max ⁡ θ Ψ ( θ ; W ) \max_\theta \Psi(\theta;W) θmaxΨ(θ;W)

四、四个真正的底层矛盾

矛盾一：全连接表达很强，但平方代价无法回避

self-attention 中的核心对象是：

A = s o f t m a x ( Q K ⊤ d ) A = \mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right) A=softmax(d QK⊤)

如果长度是 n n n，则 A ∈ R n × n A \in \mathbb{R}^{n\times n} A∈Rn×n。

这意味着：

T i m e = O ( n 2 d ) , M e m o r y ⊇ O ( n 2 ) \mathrm{Time} = \mathcal{O}(n^2 d), \qquad \mathrm{Memory} \supseteq \mathcal{O}(n^2) Time=O(n2d),Memory⊇O(n2)

于是 attention 的最深矛盾不是偶然工程问题，而是结构事实：

表达力和昂贵性来自同一个耦合矩阵。

这也意味着未来真正关键的不是"如何永远保住完整 attention"，而是：

如何在损失最少关键信息的前提下，近似这个耦合矩阵。

矛盾二：长上下文"能表示"不等于"能利用"

RoPE 的核心思想可以写成：

q ~ i = R ( i ) q i , k ~ j = R ( j ) k j \tilde{q}_i = \mathcal{R}(i) q_i, \qquad \tilde{k}_j = \mathcal{R}(j) k_j q~i=R(i)qi,k~j=R(j)kj

从而：

$$

\tilde{q}_i^\top \tilde{k}_j

q_i^\top \mathcal{R}(i-j) k_j