本文已于 2026.04.18 发表于公众号和知乎
本文是《深度学习进阶:自然语言处理》的阅读总结,同时结合最近几年的技术发展,补充一些本书成文后的技术演进,最后是我对技术发展和阅读的思考。
斋藤康毅的《深度学习入门》介绍了最基础的深度学习知识:感知机、激活函数、损失函数、误差反向传播、超参数、正则化、CNN、深层网络。这本《深度学习进阶》则是在深层网络基础上继续前行,聚焦于自然语言处理领域,重点围绕两大核心内容展开:(1)词的分布式表示(即 embedding)------用一组浮点数向量代表一个词的含义;(2)序列生成。从词的分布式表示到序列生成,再到现代大模型架构,可清晰看到一条完整的技术演进脉络。

1. 书内内容
1.1 同义词
作为词义表达的基础方式,其概念早于现代 NLP,20 世纪 50 年代随着自然语言处理领域萌芽开始,最初通过同义词互释的方式表达词义,为后续词的向量表示奠定基础,核心是通过相似语义关联理解词的含义。
1.2 上下文共现词的概率统计(PPMI)
基于共现矩阵与点互信息(PMI)。正点互信息 PPMI 于 1990 年代在 NLP 中逐步成熟,基于"一个词的含义可由其周围的上下文词决定"这一核心概念,通过统计目标词与上下文词的共现概率,结合 PPMI 处理,得到词的分布式表示,属于传统的词向量构建方法。
1.3 上下文的神经网络学习(word2vec)

2013 年提出的 word2vec,本质是单层隐层的神经网络(分为 CBOW 和 Skip-gram 两种模式),仅包含两个权重矩阵------输入侧权重矩阵(词表大小×嵌入维度)和输出侧权重矩阵(嵌入维度×词表大小)。多个上下文词共享同一输入权重矩阵,其输入经求和/平均后传入隐层,训练完成后,输入侧权重矩阵即为词的 embedding。
1.4 基于神经网络的长序列预测(RNN,循环神经网络)

1980s 年提出,但直到 2010s 才在 NLP 领域大规模应用,技术重心从词的 embedding 学习切换到序列建模与预测。word2vec 虽能实现简单预测,但依赖固定大小的上下文窗口,无法利用上下文之前的历史输入;而 RNN 通过给每个网络单元引入前序序列的 hidden state,将前序序列的信息总结并传递,实现了变长序列的建模。
1.5 RNN 的改进与 LSTM
简单 RNN 处理长序列时极易出现梯度消失 / 爆炸,难以训练。LSTM(长短期记忆网络)于 1997 年提出,但直到 2014 年左右才流行。LSTM 在简单 RNN 基础上新增了三个门控结构------遗忘门、输入门、输出门。所谓门控,是通过 sigmoid 函数计算出 0~1 之间的权重值,cell state(长期记忆)或者 hidden state(短期输出)乘以该权重值。门控也是深度学习中控制信息流动的核心组件。
1.6 Seq2Seq 架构

于 2014 年提出,以 RNN(或 LSTM)为基础,通过堆叠形成 encoder→decoder(编码器→解码器)架构。早期 Seq2Seq 中,encoder 将输入序列编码为一个固定维度的 hidden state,再传递给 decoder,相当于整个输入序列被压缩为单个 hidden state。
1.7 Attention 结构

2014 年提出,用于解决编码器将序列压缩为单个向量导致的信息丢失问题。对 encoder→decoder 架构进行微调优化,使得 encoder 将所有 hidden state 均传递给 decoder 的模式。其核心逻辑是:decoder 每一步的 hidden state,都会与 encoder 所有词的 hidden state 计算内积,得到注意力权重,经 softmax 归一化后,再与 encoder 的 hidden state 做加权求和,得到上下文向量,然后再和 hidden state 结合后做输出。这个 Attention 和后面的 QKV 矩阵计算很像。
本书内容至此结束,结合后续自然语言处理技术的发展,其演进脉络进一步延伸:
2. 书外延伸
2.1 Transformer 结构

2017 年在《Attention is All You Need》论文中提出,基于带有 Attention 组件的 Seq2Seq 架构演进而来,整体仍保留 encoder→decoder 框架,但不再使用 RNN 的循环结构(实现全序列并行计算,而非按位置串行),同时开始加深层数,并且内部核心组件替换为以下关键部分:
- • Attention 计算升级为 Multi-Head Self-Attention(多头自注意力):通过 Q(查询向量)、K(键向量)、V(值向量)三个矩阵计算实现注意力查找,核心逻辑仍是先通过 Q 与 K 的内积计算注意力权重,再通过权重与 V 的加权求和提取信息。与此前 Attention 的核心区别在于:此前是 decoder 向 encoder 获取信息(交叉注意力),而 Self-Attention 是序列内部的词与词之间相互关注,实现序列内部依赖关系的建模。在此基础上,Transformer 引入了 Multi-Head(多头)机制:将 Q、K、V 各自拆分为多个头(head),每个头独立进行注意力计算,最后将所有头的输出拼接(concat)后通过一个线性投影合并。多头的意义在于让模型能同时从不同的表示子空间捕捉信息------例如一个头关注语法关系,另一个头关注语义相似性------从而显著增强模型的表达能力。这也是后续 GQA(分组查询注意力)、MLA(多头潜在注意力)等改进的基础。
- • Cross-Attention(交叉注意力):原始 Transformer 的 Decoder 层实际上包含三个子层:Masked Self-Attention → Cross-Attention → FFN。其中 Self-Attention 负责目标序列内部的建模(带掩码,防止看到未来的词),Cross-Attention 则负责 Decoder 向 Encoder 获取信息------Q 来自 Decoder 的 Self-Attention 输出,K/V 来自 Encoder 最后一层的输出,本质上就是 1.7 中 Attention 结构在 Transformer 中的延续。也就是说,Transformer 的 Decoder 同时包含了 Self-Attention(序列内部关注)和 Cross-Attention(跨序列关注)两种注意力机制。后续演进到 Decoder-only 架构后,由于去掉了 Encoder,Cross-Attention 随之消失,仅保留 Self-Attention。
- • FFN(前馈神经网络)计算:在输出之前进行两次矩阵投影,先通过"上投影"(up-projection)将特征维度提升,再通过"下投影"(down-projection)将维度还原,中间加入非线性激活函数,增强模型的表达能力。
2.2 位置编码(Positional Encoding)
与 Transformer 同时于 2017 年提出,为适配 Transformer 的并行计算特性而引入。由于 Transformer 抛弃了 RNN 的顺序输入模式,采用所有词同时输入的并行方式,无法天然捕捉语序信息,因此需要额外为每个词添加"位置标签"(位置编码),让模型能够分辨词的顺序。其中固定正余弦编码于 2017 年提出,主流的 RoPE(旋转位置编码)于 2021 年提出,大幅提升了模型对长文本的处理能力和建模精度。
2.3 归一化(Normalization)位置优化
Post-Norm 随 2017 年 Transformer 提出;Pre-Norm 思想更早,在 Transformer 架构中于 2019--2020 年逐步流行。为解决极深网络的训练不稳定性问题,对归一化的位置进行了调整,从早期的 Post-Norm(先完成层计算,再进行归一化),演进到如今主流的 Pre-Norm(先进行归一化,再执行层计算),这种调整让残差不受 Norm 的影响,有效缓解了深层网络的梯度消失问题,保证了深层网络(尤其是万亿参数级模型)训练的稳定性,是大模型能够落地的重要基础。

2.4 Decoder-only 架构与大模型演进
Decoder-only 于 2018 年随着 GPT-1 的提出,2019 年 GPT-2 验证其有效性后逐渐成为主流。它对 Seq2Seq 架构做了简化,去掉了 encoder 部分,形成 Decoder-only(仅解码器)架构,这一架构直接引爆了现代大语言模型的发展。后续的技术改进均围绕 Decoder-only 架构的各个环节展开,近几年的核心改进包括:
- • 注意力计算改进:线性注意力于 2020 年提出,稀疏注意力于 2019 年提出,核心目的是减少长序列建模时的算力消耗和 KV Cache(键值缓存)的存储开销,提升模型处理长文本的效率。
- • FFN 计算改进:MoE(多专家系统)由 Hinton 等人于 1991 年奠定基础,2017 年起在深度学习中重新受到关注。通过 MoE 结构替换部分 FFN 层,将单个 FFN 拆分为多个小型"专家网络"(小型专家网络本质上也是一个 FFN 计算),仅激活与当前输入相关的专家,在提升模型容量的同时,大幅降低了计算量。
- • 注意力残差:2026 年后随着大模型深度提升逐步提出并优化,以注意力的思想改造残差连接,原本上一层的 hidden state 作为残差直连加到当前子层的计算结果上,改成了当前层有一个查询向量,和所有历史层的 hidden state 做查询(内积)再计算 softmax,得到每个历史层的权重,权重再乘以每个历史层的 hidden state,然后按位置加和,得到当前层的残差。
- • KV Cache 优化:除了上面的之外,在优化注意力计算的 KV Cache 占用方面还有:GQA(2023 年)、MLA(2024 年)等改进。
2.5 Transformer 衍生的另外两条技术路线
- • Encoder-only(代表:BERT,2018 年):去掉 Decoder,仅保留 Encoder,采用双向注意力(每个词同时关注左右所有词)。训练时随机遮盖部分词让模型预测(掩码语言模型,MLM),天然擅长理解类任务(分类、语义匹配等)。后续衍生出 RoBERTa、ALBERT 等变体,目前主要用于搜索、推荐等语义理解场景,常用于 embedding 生成、文本分类、序列标注(如命名实体识别)等。
- • Encoder-Decoder(代表:T5,2019 年):保留完整的 Encoder-Decoder 结构,核心思想是将所有 NLP 任务统一为"文本到文本"格式,Encoder 负责理解,Decoder 负责生成,在翻译、摘要等需要深度理解输入再生成输出的任务上表现优异。
最终,Decoder-only 架构凭借架构简洁、易于规模扩展、通过足够大的参数和数据即可涌现理解能力,成为当前大语言模型的绝对主流。另外两条路线由于扩展性不如 Decoder-only(Encoder-only 无法生成,Encoder-Decoder 架构更复杂、训练成本更高),逐渐退居各自擅长的细分场景。
3. 我的思考
3.1. 技术演进的"忒修斯之船"
技术的演进是一场连续的迭代。word2vec 虽开启了嵌入时代,但其固定的上下文窗口和对词序信息的"抹平",导致了历史信息与时序特征的缺失。RNN通过引入基于时序的隐藏状态循环传递,成功补齐了这两块"木板",实现了变长序列的时序建模。然而,这种为了时序而设计的循环结构,却成了阻碍并行计算的枷锁。Transformer 的出现,用自注意力机制替换了递归,并用位置编码实现时序感知。站在今日回看,我们可以从长距离记忆、位置感知、并行化能力这三个维度复盘这波演进。虽然逻辑上存在"一步到位"跨越到 Transformer 的可能,但技术的发展从非一蹴而就。它就像不断被更换木板的"忒修斯之船":为了追求极致的效果和性能,我们不断"杀死"过时的组件,直到整艘船焕然一新。在人工智能发展的这条航线上,没有永恒不变的架构,唯有持续迭代的生长。
3.2. 创造性的发明是点滴累积带来的质变
当前生成式模型的结构演化自 Transformer,而 Transformer 又来自 RNN 的探索。RNN 的实验提示了序列生成对前序信息的依赖,令注意力思想初现端倪。随后 Transformer 以注意力机制为中心实现去繁就简,而 decoder-only 的生成式架构进一步推向极简。在"大力出奇迹"的尝试下,最终创造者们发现了神经网络结构里隐藏着的宇宙公理:以乘法、加法及少量非线性函数构成的网状计算结构,在规模跨越临界点时会带来智能涌现。"涌现"就像牛顿发现的万有引力,麦克斯韦发现的电磁方程,不需要解释,也无法解释。
3.3. 阅读的价值
最近一年反复看的书是斋藤康毅的《深度学习入门》、《深度学习进阶》,这两本书也比较薄,越读越轻松。深度学习作为当前大模型人工智能的基石,通过阅读入门和进阶书籍,了解当前的生成式模型结构是如何演变而来。初次阅读更多是作者知识的投喂,反复的阅读则会进一步去猜想作者背后的知识发现者是如何考虑的。再结合当前不断出现的模型结构创新,会有一种感触:"很有新意,但也并非横空出世,也许我也可以做到"。从 encoder-decoder,到 decoder-only,再到 decoder-only 结构上对注意力计算、FFN 计算的死磕,这几年大结构上并没有太大的变化,新来的人们,从今天起,去学习更本质的知识,也不会太晚,很快大家都会在相同的起跑线上。
4. NLP 技术发展时间线

| 技术 | 提出时间 | 流行/成熟时间 | 核心地位 |
|---|---|---|---|
| 同义词 | 1950s | --- | 词义表达的最初方式 |
| PMI / PPMI | 1990s | 2000s | 基于共现统计的词向量构建 |
| word2vec | 2013 | 2013--2015 | 开启神经网络词向量时代 |
| RNN | 1980s | 2010s | 序列建模的基础架构 |
| LSTM | 1997 | 2014 | 解决长序列梯度消失问题 |
| Seq2Seq | 2014 | 2014--2016 | 确立编码器-解码器范式 |
| Attention | 2014 | 2015--2017 | 解决序列压缩信息丢失 |
| Transformer | 2017 | 2017-- | 奠定现代 NLP 并行计算基础 |
| 位置编码(正余弦) | 2017 | 2017-- | 为并行架构引入语序信息 |
| BERT(Encoder-only) | 2018 | 2018--2020 | 双向理解类任务的标杆 |
| GPT-1(Decoder-only) | 2018 | 2019-- | 确立生成式预训练范式 |
| T5(Encoder-Decoder) | 2019 | 2019--2021 | 统一"文本到文本"范式 |
| 稀疏注意力 | 2019 | 2019-- | 长文本效率优化 |
| Pre-Norm | 2019--2020 | 2020-- | 深层网络训练稳定性保障 |
| 线性注意力 | 2020 | 2020-- | 注意力复杂度降维 |
| RoPE(旋转位置编码) | 2021 | 2022-- | 现代大模型位置编码标配 |
| GQA(分组查询注意力) | 2023 | 2023-- | KV Cache 显存优化方案 |
| MLA(多头潜在注意力) | 2024 | 2024-- | KV Cache 极致压缩 |
| MoE(多专家系统) | 1991 基础 / 2017 复兴 | 2022-- | 提升模型容量、降低计算量 |
| 动态注意力残差(Kimi AttnRes) | 2026 | - | 跨层信息检索与融合 |