这篇文章要解决什么问题
如果只是问:
RoPE是什么FlashAttention是什么Attention Residuals是什么Kimi在做什么
那么你得到的大概率只是若干技术简介。
但真正有价值的问题不是这个。
真正有价值的问题是:
这些工作为什么会在这几年同时出现,它们分别在修正哪一层历史遗留问题,它们最终会把大模型带到哪里去。
换句话说,我们不应该把这些工作看成若干孤立模块,而要把它们看成:
同一个长历史中的不同阶段性修正。
我下面会按五个层次展开:
- 先讲一条足够长的历史线
- 再建立一个统一数学框架
- 再解释各类代表工作到底在修正什么
- 再给出一个更强的未来预测框架
- 最后给出可证伪的判断,而不是空泛口号
一、真正的历史线,要从 Transformer 之前很久开始
1. 统计语言模型阶段:问题第一次被写成条件概率链
语言建模最基本的形式是:
P ( x 1 : n ) = ∏ t = 1 n P ( x t ∣ x 1 : t − 1 ) P(x_{1:n}) = \prod_{t=1}^{n} P(x_t \mid x_{1:t-1}) P(x1:n)=t=1∏nP(xt∣x1:t−1)
这是一个极其重要的起点。
因为它意味着:
语言理解和生成,从一开始就是一个"历史如何影响当前"的问题。
但传统统计模型很快碰到组合爆炸,于是只能用截断近似:
P ( x t ∣ x 1 : t − 1 ) ≈ P ( x t ∣ x t − k : t − 1 ) P(x_t \mid x_{1:t-1}) \approx P(x_t \mid x_{t-k:t-1}) P(xt∣x1:t−1)≈P(xt∣xt−k:t−1)
这一步虽然是工程妥协,却埋下了后面几十年所有工作的母命题:
真实依赖很长,但可计算依赖很短。
这个矛盾在今天没有消失,只是换了形式。
当年它表现为:
- n-gram 的窗口有限
今天它表现为:
- context window 有限
- KV cache 有限
- memory budget 有限
形式变了,问题没变。
2. 神经网络语言模型阶段:离散稀疏变成连续表示
神经网络语言模型把符号映射到向量空间,再在连续空间上学习条件概率。
这一步真正重要的,不只是效果提升,而是把整个序列建模问题搬进了一个更有几何结构的空间。
从此以后:
- 词之间有了距离
- 表示之间有了连续过渡
- 模型可以通过共享参数处理相似结构
这一步的历史意义非常大,因为后面所有 attention、memory、routing,都是建立在"先有连续表示空间"这个前提上的。
3. RNN 阶段:第一次把"历史"写成状态演化
RNN 把序列建模写成:
h t = f θ ( h t − 1 , x t ) , y t = g θ ( h t ) h_t = f_\theta(h_{t-1}, x_t), \qquad y_t = g_\theta(h_t) ht=fθ(ht−1,xt),yt=gθ(ht)
这是第一次认真地把"历史"压进一个随时间演化的状态变量里。
从更抽象的角度看,这一步意味着:
语言模型不再只是条件概率表,而是一个离散动力系统。
这件事非常深,因为它引入了两个今天仍然没有过时的思想:
- 历史可以通过状态递归压缩
- 学习问题本质上也是一个稳定传播问题
但 RNN 很快暴露出核心极限。
如果看梯度传播:
∂ h t ∂ h t − k = ∏ i = t − k + 1 t ∂ h i ∂ h i − 1 \frac{\partial h_t}{\partial h_{t-k}}= \prod_{i=t-k+1}^{t} \frac{\partial h_i}{\partial h_{i-1}} ∂ht−k∂ht=i=t−k+1∏t∂hi−1∂hi
那么只要雅可比乘积长期偏离稳定区间,就会出现:
- 梯度消失
- 梯度爆炸
这说明:
仅仅有状态递归还不够,状态递归本身也必须被精心设计。
4. LSTM/GRU 阶段:记忆第一次成为独立架构对象
LSTM 的真正历史地位,不是"RNN 的改良版",而是:
它第一次承认记忆不能靠普通非线性单元顺带学出来,必须被单独保护。
这在今天非常重要,因为很多人以为 external memory、persistent memory 是最近几年才有的思想。
其实不是。
真正的祖先是 LSTM 这一类工作。
它最早明确说出:
要想让长期影响不塌缩,必须给记忆一条低阻路径和可控门机制。
所以从历史上看,memory 路线不是 Transformer 之后的新发明,而是:
被 attention 暂时压过去,但从未真正消失的主线。
5. Seq2Seq 阶段:固定瓶颈问题第一次被大规模暴露
Seq2Seq 的基本形式是:
z = E n c o d e r ( x 1 : n ) , y 1 : m = D e c o d e r ( z ) z = \mathrm{Encoder}(x_{1:n}), \qquad y_{1:m} = \mathrm{Decoder}(z) z=Encoder(x1:n),y1:m=Decoder(z)
早期的关键假设是:
可以把整个输入历史压缩成一个固定维度的向量 z z z。
这个假设很快就碰到极限。
原因很简单:
当输入变长、任务变复杂时,固定瓶颈会迫使大量任务相关信息竞争同一小空间。
这实际上是今天很多问题的最早版本:
- 有限上下文窗口
- 有限状态容量
- 有限 KV cache
- 有限工作记忆
所以你可以把今天所有"如何组织长历史"的工作,都看成在继续回答一个 2014 年就已经暴露出来的问题:
单点压缩足够吗。
答案显然是不够。
6. Attention 的出现:历史不再需要先被完全压缩,再被使用
Bahdanau attention 的历史意义极高。
它指出了一个非常关键的问题:固定长度向量是瓶颈。这一点在原始论文摘要里直接说得很明确,作者认为固定长度向量的使用是 encoder-decoder 提升性能的瓶颈之一 来源。
这件事带来的范式转移是:
当前决策不再必须只依赖一个压缩后的全局摘要,而可以按需访问历史的不同部分。
如果一定要用一句数学化的话总结 attention 的出现,那就是:
信息组织方式从"先整体压缩,再统一使用",转向"保留局部表示,再按需访问"。
这件事后来几乎改写了整个序列建模世界。
7. Transformer 的出现:全局可访问、全并行、层级更新第一次合体
2017 年 Transformer 的胜利,不只是引入 self-attention,而是把三件事合成到了一个极高效的系统中:
- 全局可访问
- 全并行
- 分层堆叠更新
attention 公式是:
A t t n ( Q , K , V ) = s o f t m a x ( Q K ⊤ d ) V \mathrm{Attn}(Q,K,V)= \mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V Attn(Q,K,V)=softmax(d QK⊤)V
真正关键的是矩阵:
A = s o f t m a x ( Q K ⊤ d ) A = \mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right) A=softmax(d QK⊤)
它是一个输入依赖的全局耦合矩阵。
你可以把 Transformer 的本质理解成:
每一层都在重新构造一张"谁该影响谁"的动态全局图。
这比 RNN 的局部时间传播强太多,也比固定瓶颈的 Seq2Seq 自由太多。
但它一上来就带着三个巨大后果:
- 计算成本平方增长
- 远程依赖不代表远程影响稳定
- 深层堆叠会引入新的训练动力学问题
也就是说,Transformer 的历史意义不是"把问题解决了",而是:
它把问题从递归稳定性转移到了全局信息流组织、预算和稳定性的新层面。
二、如果按 2014 到 2026 年分阶段,大模型历史可以更细地切成八段
1990s 统计语言模型 局部窗口近似 1997 LSTM 显式记忆通路 2014 Seq2Seq 固定瓶颈暴露 2014-2015 Bahdanau/Luong Attention 按需访问历史 2017 Transformer 全局并行信息流 2020 Scaling Laws 容量与计算规律显性化 2021-2023 RoPE FlashAttention MoE Long Context 位置 访存 路由 上下文预算 2023-2026 RAG Memory Agent RetNet Kimi类 静态前向走向状态系统 大模型架构主线时间轴
下面把这八段再压深。
第一段:统计时代关心的是"如何估计",不是"如何表示"
那时的问题是:
在有限数据下,如何可靠估计条件概率。
今天的问题则变成:
在有限预算下,如何组织有效信息流。
这说明问题重心从统计估计,转向了计算-表示-决策的联立问题。
第二段:LSTM 首次把"保持长期影响"变成架构设计目标
这一步对未来的意义,不只是性能,而是一个哲学判断:
如果你不显式为长期影响设计通路,模型自己未必会学出来。
今天很多 memory 路线,本质上仍然在重复这个判断。
第三段:Seq2Seq 暴露了"全局摘要主义"的局限
单个摘要向量承受不了所有任务相关信息。
今天的很多工作其实还是在继续回答这个问题,只不过摘要对象换成了:
- 长窗口
- 长缓存
- 长记忆
第四段:Attention 让"选择性访问"第一次压过"统一压缩"
这是一个非常大的范式转移。
过去是在问:
如何压好一个摘要。
后来变成问:
如何学好一个访问分布。
今天的 routing、retrieval、memory,其实都在延长这条线。
第五段:Transformer 让"访问分布"变成了系统中心
一旦自注意力成为核心,整个系统就在围绕动态依赖矩阵运转。
这件事带来的后果极大:
- 一切都能互看
- 一切都变昂贵
- 一切都需要新的稳定性设计
第六段:Scaling Laws 让行业第一次看到"规模不是玄学,而是规律"
2020 年的 Scaling Laws for Neural Language Models 说明,交叉熵损失会随模型规模、数据规模和训练计算量呈现幂律变化 来源。
这篇工作的历史地位不只是提供了经验曲线,而是给整个行业一个判断:
先把架构大体定住,规模本身就能释放大量能力。
这导致了一个阶段性的行业倾向:
大量资源被投入"更大模型 + 更多数据 + 更多算力"的路径。
这条路径确实极其成功。
但它也把一些更深层的问题暂时压后了,比如:
- 训练分布是否匹配真实推理分布
- 注意力是否真的是长期最优计算范式
- 模型是否需要更明确的状态与记忆系统
第七段:2021 到 2023 年,行业开始意识到"够大"不等于"够长、够快、够稳"
这一阶段出现了一批看起来分散、其实目标高度统一的工作。
RoPE 通过旋转位置编码把相对位置信息直接嵌进 self-attention 来源。
FlashAttention 则把注意力计算写成 IO-aware 算法,强调真正的瓶颈不只是算术复杂度,还有 GPU 存储层级之间的读写开销 来源。
这两类工作表面差异很大,实则都在修正 Transformer 的现实边界:
- 一类修相对位置与长序列表示
- 一类修长序列下的部署与计算代价
第八段:2023 到 2026 年,模型开始从"函数"逼近"系统"
这一阶段最值得重视的,不是某个单点模块,而是整体走向:
RAG承认知识可以外置- memory 承认历史需要分层存储
- agent 承认任务需要多步状态更新
- RetNet 一类工作重新把 recurrence 与 attention 统一起来,强调训练并行和低成本推理可以兼得 来源
- Kimi 一类系统则更明确地把长上下文、记忆、采样与多步推理组织到一起
如果说 2017 到 2020 年的主线是"把 Transformer 做大",那么 2023 到 2026 年的主线更像是:
开始重新思考,单次全量前向是不是复杂智能活动的最终载体。
三、统一数学框架:这些工作争夺的其实是"带预算约束的信息流泛函"
如果要像数学家那样看问题,我们不能停在技术名词。
我们需要定义真正的对象。
1. 序列模型是一个带预算的非线性算子
设输入序列嵌入后为:
h ( 0 ) = ( h 1 ( 0 ) , ... , h n ( 0 ) ) ∈ ( R d ) n h^{(0)} = (h_1^{(0)}, \dots, h_n^{(0)}) \in (\mathbb{R}^d)^n h(0)=(h1(0),...,hn(0))∈(Rd)n
深层模型记作:
T θ : ( R d ) n → ( R d ) n \mathcal{T}_\theta : (\mathbb{R}^d)^n \to (\mathbb{R}^d)^n Tθ:(Rd)n→(Rd)n
并满足预算约束:
C ( θ , n ) ≤ B \mathcal{C}(\theta,n) \le B C(θ,n)≤B
这里的 C \mathcal{C} C 不只是 FLOPs,而应包括:
- 算术计算
- 显存占用
- 带宽读写
- 解码延迟
- 缓存压力
也就是说,真正的问题从来都不是:
最强算子是什么。
而是:
在预算 B B B 下,最优信息流算子是什么。
2. 定义局部影响算子
第 ℓ \ell ℓ 层从位置 j j j 到位置 i i i 的局部影响记为:
J i j ( ℓ ) : = ∂ h i ( ℓ + 1 ) ∂ h j ( ℓ ) \mathcal{J}_{ij}^{(\ell)} := \frac{\partial h_i^{(\ell+1)}}{\partial h_j^{(\ell)}} Jij(ℓ):=∂hj(ℓ)∂hi(ℓ+1)
这刻画一层里谁影响谁。
3. 定义端到端影响算子
输入位置 j j j 对最终位置 i i i 的总影响记为:
G i j ( L ) : = ∂ h i ( L ) ∂ h j ( 0 ) \mathcal{G}_{ij}^{(L)} := \frac{\partial h_i^{(L)}}{\partial h_j^{(0)}} Gij(L):=∂hj(0)∂hi(L)
这是我认为最关键的统一对象。
因为它直接回答:
一个早期信息片段在最终决策里到底还有没有影响力。
4. 定义任务相关信息流泛函
给定任务权重矩阵 W = ( w i j ) W=(w_{ij}) W=(wij),定义:
Φ ( θ ; W ) : = ∑ i , j w i j ∥ G i j ( L ) ∥ o p \Phi(\theta;W) := \sum_{i,j} w_{ij} \left\| \mathcal{G}{ij}^{(L)} \right\|{\mathrm{op}} Φ(θ;W):=i,j∑wij Gij(L) op
再定义预算归一化效率:
Ψ ( θ ; W ) : = Φ ( θ ; W ) C ( θ , n ) \Psi(\theta;W) := \frac{\Phi(\theta;W)}{\mathcal{C}(\theta,n)} Ψ(θ;W):=C(θ,n)Φ(θ;W)
这个量不是教科书标准定义,但它非常适合统一视角。
因为:
RoPE主要改的是哪些远距离依赖能在核函数上被表示FlashAttention主要改的是同一算子的实现成本Attention Residuals主要改的是端到端影响到底能否真正穿过关键模块Kimi/Memory/Routing主要改的是在预算有限时,哪些信息路径值得优先保真
所以这些工作表面不同,实则都在争:
max θ Ψ ( θ ; W ) \max_\theta \Psi(\theta;W) θmaxΨ(θ;W)
四、四个真正的底层矛盾
矛盾一:全连接表达很强,但平方代价无法回避
self-attention 中的核心对象是:
A = s o f t m a x ( Q K ⊤ d ) A = \mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right) A=softmax(d QK⊤)
如果长度是 n n n,则 A ∈ R n × n A \in \mathbb{R}^{n\times n} A∈Rn×n。
这意味着:
T i m e = O ( n 2 d ) , M e m o r y ⊇ O ( n 2 ) \mathrm{Time} = \mathcal{O}(n^2 d), \qquad \mathrm{Memory} \supseteq \mathcal{O}(n^2) Time=O(n2d),Memory⊇O(n2)
于是 attention 的最深矛盾不是偶然工程问题,而是结构事实:
表达力和昂贵性来自同一个耦合矩阵。
这也意味着未来真正关键的不是"如何永远保住完整 attention",而是:
如何在损失最少关键信息的前提下,近似这个耦合矩阵。
矛盾二:长上下文"能表示"不等于"能利用"
RoPE 的核心思想可以写成:
q ~ i = R ( i ) q i , k ~ j = R ( j ) k j \tilde{q}_i = \mathcal{R}(i) q_i, \qquad \tilde{k}_j = \mathcal{R}(j) k_j q~i=R(i)qi,k~j=R(j)kj
从而:
$$
\tilde{q}_i^\top \tilde{k}_j
q_i^\top \mathcal{R}(i-j) k_j
这里确实把相对位置结构注入了核函数。 但真正更深的问题不在核函数,而在端到端传播: ∥ G i j ( L ) ∥ o p \\left\\\| \\mathcal{G}_{ij}\^{(L)} \\right\\\|_{\\mathrm{op}} Gij(L) op 是否随距离增大而快速衰减。 如果平均传播带来收缩因子 α \< 1 \\alpha\<1 α\<1,则启发式地有: ∥ G i j ( L ) ∥ o p ≲ α Δ ( i , j ) \\left\\\| \\mathcal{G}_{ij}\^{(L)} \\right\\\|_{\\mathrm{op}} \\lesssim \\alpha\^{\\Delta(i,j)} Gij(L) op≲αΔ(i,j) 这说明真正的命门不是: > 是否看得见远处。 而是: > 远处信息是否还能对最终决策保有可观影响。 #### 矛盾三:深度扩张和训练稳定性互相拉扯 Transformer 残差层写作: h ( ℓ + 1 ) = h ( ℓ ) + F ( ℓ ) ( h ( ℓ ) ) h\^{(\\ell+1)} = h\^{(\\ell)} + F\^{(\\ell)}(h\^{(\\ell)}) h(ℓ+1)=h(ℓ)+F(ℓ)(h(ℓ)) 展开得: h ( L ) = h ( 0 ) + ∑ ℓ = 0 L − 1 F ( ℓ ) ( h ( ℓ ) ) h\^{(L)} = h\^{(0)} + \\sum_{\\ell=0}\^{L-1}F\^{(\\ell)}(h\^{(\\ell)}) h(L)=h(0)+ℓ=0∑L−1F(ℓ)(h(ℓ)) 如果: ∥ F ( ℓ ) ( h ( ℓ ) ) ∥ ≪ ∥ h ( ℓ ) ∥ \\\|F\^{(\\ell)}(h\^{(\\ell)})\\\| \\ll \\\|h\^{(\\ell)}\\\| ∥F(ℓ)(h(ℓ))∥≪∥h(ℓ)∥ 那么模型整体容易接近恒等映射堆叠。 这就是为什么很多模型虽然很深,但未必真的形成了深层非平凡变换。 所以像 `Attention Residuals` 这样的方向,本质上在解决的是: > 如何让关键变换真的进入主通路,而不是被残差旁路吞掉。 这件事之所以关键,是因为它决定了: > 模型理论表达能力能否被训练动力学兑现。 #### 矛盾四:训练世界和推理世界不是同一个世界 现实系统里的问题经常不是模型太小,而是分布错位。 设: P t r a i n ( x , y ) ≠ P i n f e r ( x , y ) P_{\\mathrm{train}}(x,y) \\neq P_{\\mathrm{infer}}(x,y) Ptrain(x,y)=Pinfer(x,y) 尤其在长上下文、检索、工具调用和 agent 轨迹中,这种偏移会体现在: * 输入长度分布 * 依赖路径分布 * 历史状态分布 * 决策轨迹分布 所以很多所谓"长上下文失灵"并不只是架构问题,而是: > 模型在错误的世界里被训练。 *** ** * ** *** ### 五、RoPE、FlashAttention、Attention Residuals、Kimi 到底分别在改哪里 #### 1. RoPE:改核函数的位置结构 它做的是: > 让 attention 对相对位置敏感,而且形式上能自然延伸到更长序列。 它解决的是"可表示性"的一部分。 #### 2. FlashAttention:改实现测度,不大改算子本身 FlashAttention 原论文直接强调,很多近似 attention 并没有真正获得 wall-clock speedup,而缺失的原则是对 GPU 内存层级的 IO-aware 处理 [来源](https://arxiv.org/abs/2205.14135)。 所以它真正做的是: > 在不明显损伤表达的前提下,重排数值实现路径,减少高代价读写。 这不是在重新定义 attention,而是在重新定义"如何把同一个 attention 算出来"。 #### 3. Attention Residuals:改动力学中的主次通路关系 它解决的是: > 信息是否真正穿过 attention,而不是沿 residual 偷渡。 这件事的重要性,在未来几年很可能会被越来越多人重新认识。 #### 4. Kimi 类系统:改的是预算内的信息路径选择 这类路线最深的地方,不是"窗口很长",而是: > 它开始承认并学习,哪些历史更值得被保留、重访、展开和精算。 如果所有潜在路径构成集合 Ω \\Omega Ω,目标为: Y = ∑ p ∈ Ω w ( p ) Y = \\sum_{p\\in\\Omega} w(p) Y=p∈Ω∑w(p) 那么预算有限时,系统必须做某种采样、路由或压缩近似。 这在数学上越来越像: > 学习一个更优的路径分布 q ( p ) q(p) q(p),使得在固定预算下保留更多有效贡献。 *** ** * ** *** ### 六、为什么未来的核心不再是"更大的函数",而是"更强的系统" 最初的语言模型更像: y = f θ ( x ) y = f_\\theta(x) y=fθ(x) 但未来更强的系统会越来越像: s t + 1 = g θ ( s t , x t , a t ) , a t ∼ π θ ( ⋅ ∣ s t , x t ) s_{t+1} = g_\\theta(s_t, x_t, a_t), \\qquad a_t \\sim \\pi_\\theta(\\cdot \\mid s_t, x_t) st+1=gθ(st,xt,at),at∼πθ(⋅∣st,xt) 这里: * s t s_t st 是系统状态 * a t a_t at 是策略动作 * π θ \\pi_\\theta πθ 是路径或工具选择策略 这意味着模型正在从一个静态大函数,走向一个会: * 保存状态 * 更新状态 * 调用外部资源 * 选择计算路径 * 决定何时继续、何时停止 的动态系统。 这一步是范式级变化。 *** ** * ** *** ### 七、未来 2026 到 2030 年,我给出的八个判断 下面不是口号,而是带方向性的判断。我会明确标出哪些是推断。 #### 判断 1:纯"更长窗口"路线会继续存在,但不会成为最后的胜者 这是推断。 理由是长窗口只是在平移预算边界,不是在解决预算边界。 它会继续有用,但它无法替代: * 记忆分层 * 状态压缩 * 重要路径选择 #### 判断 2:attention 不会消失,但会失去独占中心地位 这是推断。 attention 仍然会是极强的局部到中程耦合原语。 但越来越多成熟系统会采用混合形态: * attention * memory * routing * retrieval * tool use 也就是说,attention 更可能成为"关键组件",而不是"唯一核心"。 #### 判断 3:训练动力学会从边缘议题变成中心议题 这是推断。 当系统越来越深、轨迹越来越长、模块越来越多时,真正决定上限的,往往不是单层表达力,而是: > 这些能力能不能在一个稳定的训练系统里被真正学出来。 所以未来几年,残差、归一化、深层信号分配、路由梯度和 memory 读写稳定性,都会变得更重要。 #### 判断 4:memory 不会只是外挂,而会逐渐内生为架构层的一部分 这是推断。 目前很多系统把记忆看成外部补丁: * 外部向量库 * 外部检索 * 外部缓存 但长远看,更强的系统会逐渐把 memory 变成一种原生层级结构: * 工作记忆 * 短期状态 * 长期记忆 * 外部知识 这会更像认知系统,而不是单一神经网络。 #### 判断 5:最强的模型公司,最终比拼的不是单模型分数,而是信息流基础设施 这是推断。 真正的差异可能会来自: * 数据分布构造能力 * 长轨迹训练能力 * 记忆与路由系统 * 推理时计算编排 * 工具调用闭环 也就是说,竞争单位会从"模型 checkpoint"变成"信息流系统"。 #### 判断 6:RNN/SSM/Retention 一类思想不会替代一切,但会持续回流 这是推断。 原因很简单: > 只要推理成本和长程状态是问题,递归状态更新思想就永远不会过时。 所以未来更可能发生的不是"Transformer 被单点替代",而是: > Transformer 家族不断吸收 recurrence、state space、retention 和 memory 的思想。 #### 判断 7:很多 benchmark 改进会越来越不值钱,系统级轨迹质量会越来越值钱 这是推断。 原因是复杂智能任务越来越依赖: * 多步路径 * 中间状态 * 工具反馈 * 跨轮一致性 这些东西很难被单个静态 benchmark 准确衡量。 #### 判断 8:真正的下一次范式升级,最可能出现在"信息路径可学习化" 这是我最强的判断。 未来最关键的问题不再只是: * 每个 token 怎么表示 * token 之间权重怎么分配 而是: * 哪些信息该进入工作记忆 * 哪些该进入长期记忆 * 哪些路径值得展开 * 哪些计算应该被跳过 * 哪些外部信息值得接入 * 哪些中间结果值得被保留 换句话说,下一次突破更可能来自: > 学习信息路径,而不只是学习表示。 *** ** * ** *** ### 八、我甚至愿意给一个场景树 下面是明确推断,不是事实。 2026-2030 大模型主导形态 场景1: 混合系统胜出 场景2: 扩展版 Transformer 继续独大 场景3: 新状态模型大幅替代 Attention + Memory + Routing + Retrieval + Tools 更强长上下文 更强缓存 更强工程优化 Retention/SSM/Recurrence 成为新中心 如果必须给主观概率,我会这样判断: * `场景 1` 概率最高 这是推断:因为它最符合工程现实,也最能吸收现有生态。 * `场景 2` 仍然有相当概率 这是推断:因为 Transformer 生态和工程成熟度太强。 * `场景 3` 存在,但概率较低 这是推断:因为新范式不仅要理论更优,还要在训练、部署、生态和工具链上全面胜出。 所以我更倾向于: > 下一代不是"某个架构突然消灭所有旧架构",而是"混合系统逐步吞掉纯架构主义"。 *** ** * ** *** ### 九、什么证据会推翻上面的判断 真正严肃的预测必须允许自己被证伪。 下面是几个可能推翻我判断的证据。 #### 证伪条件 1 如果未来 2 到 3 年内,纯长窗口 Transformer 在: * 成本 * 延迟 * 长轨迹推理质量 * 状态一致性 上持续压制混合 memory/routing 系统,那么"混合系统胜出"的判断就会被削弱。 #### 证伪条件 2 如果某种新型状态模型在大规模训练、长程推理、生态接入和部署成本上同时明显优于 Transformer 家族,那么"attention 会长期保留关键地位"的判断就需要下修。 #### 证伪条件 3 如果 benchmark 与真实多步任务之间重新变得高度一致,那么"系统级轨迹质量比静态 benchmark 更重要"的判断也需要修正。 一个预测敢不敢给出证伪条件,决定了它是不是认真预测。 *** ** * ** *** ### 十、最后把全文压成一个最强的结论 如果你要我只用一段话解释过去十多年大模型架构的真正主线,我会这么说: > 过去十多年,序列建模经历了一次持续的范式迁移:从局部条件概率估计,到递归状态压缩,到按需访问历史,到全局并行信息流,再到受预算约束的信息路径选择与系统级状态控制。RoPE、FlashAttention、Attention Residuals、Kimi 这些工作并不是彼此割裂的模块创新,而是这条长历史中分别针对位置结构、实现成本、训练动力学和路径预算分配所做的阶段性修正。 如果你要我再往前说一步,我会给出更尖锐的判断: > 下一次真正的突破,很可能不再是"谁把 attention 再改一点",而是谁先把信息流的选择、压缩、存储、重访和调用,变成一个可学习、可训练、可部署、可扩展的系统级能力。 这意味着未来的大模型核心对象会从: attention matrix \\text{attention matrix} attention matrix 逐步迁移到: budgeted information flow control \\text{budgeted information flow control} budgeted information flow control 也就是: > 带预算约束的信息流控制。 这才是我认为最值得下注的方向。 *** ** * ** *** ### 参考线索 下面这些是本文直接依赖的原始或核心资料: * Bahdanau, Cho, Bengio, *Neural Machine Translation by Jointly Learning to Align and Translate* (2014/ICLR 2015): https://arxiv.org/abs/1409.0473 * Sutskever, Vinyals, Le, *Sequence to Sequence Learning with Neural Networks* (2014): https://arxiv.org/abs/1409.3215 * Vaswani et al., *Attention Is All You Need* (2017): https://arxiv.org/abs/1706.03762 * Kaplan et al., *Scaling Laws for Neural Language Models* (2020): https://arxiv.org/abs/2001.08361 * Su et al., *RoFormer: Enhanced Transformer with Rotary Position Embedding* (2021): https://arxiv.org/abs/2104.09864 * Dao et al., *FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness* (2022): https://arxiv.org/abs/2205.14135 * Sun et al., *Retentive Network: A Successor to Transformer for Large Language Models* (2023): https://arxiv.org/abs/2307.08621