从词向量到大模型：NLP 技术演进浅记

本文已于 2026.04.18 发表于公众号和知乎
本文是《深度学习进阶：自然语言处理》的阅读总结，同时结合最近几年的技术发展，补充一些本书成文后的技术演进，最后是我对技术发展和阅读的思考。

斋藤康毅的《深度学习入门》介绍了最基础的深度学习知识：感知机、激活函数、损失函数、误差反向传播、超参数、正则化、CNN、深层网络。这本《深度学习进阶》则是在深层网络基础上继续前行，聚焦于自然语言处理领域，重点围绕两大核心内容展开：(1)词的分布式表示（即 embedding）------用一组浮点数向量代表一个词的含义；(2)序列生成。从词的分布式表示到序列生成，再到现代大模型架构，可清晰看到一条完整的技术演进脉络。

1. 书内内容

1.1 同义词

作为词义表达的基础方式，其概念早于现代 NLP，20 世纪 50 年代随着自然语言处理领域萌芽开始，最初通过同义词互释的方式表达词义，为后续词的向量表示奠定基础，核心是通过相似语义关联理解词的含义。

1.2 上下文共现词的概率统计（PPMI）

基于共现矩阵与点互信息（PMI）。正点互信息 PPMI 于 1990 年代在 NLP 中逐步成熟，基于"一个词的含义可由其周围的上下文词决定"这一核心概念，通过统计目标词与上下文词的共现概率，结合 PPMI 处理，得到词的分布式表示，属于传统的词向量构建方法。

1.3 上下文的神经网络学习（word2vec）

2013 年提出的 word2vec，本质是单层隐层的神经网络（分为 CBOW 和 Skip-gram 两种模式），仅包含两个权重矩阵------输入侧权重矩阵（词表大小×嵌入维度）和输出侧权重矩阵（嵌入维度×词表大小）。多个上下文词共享同一输入权重矩阵，其输入经求和/平均后传入隐层，训练完成后，输入侧权重矩阵即为词的 embedding。

1.4 基于神经网络的长序列预测（RNN，循环神经网络）

1980s 年提出，但直到 2010s 才在 NLP 领域大规模应用，技术重心从词的 embedding 学习切换到序列建模与预测。word2vec 虽能实现简单预测，但依赖固定大小的上下文窗口，无法利用上下文之前的历史输入；而 RNN 通过给每个网络单元引入前序序列的 hidden state，将前序序列的信息总结并传递，实现了变长序列的建模。

1.5 RNN 的改进与 LSTM

简单 RNN 处理长序列时极易出现梯度消失 / 爆炸，难以训练。LSTM（长短期记忆网络）于 1997 年提出，但直到 2014 年左右才流行。LSTM 在简单 RNN 基础上新增了三个门控结构------遗忘门、输入门、输出门。所谓门控，是通过 sigmoid 函数计算出 0~1 之间的权重值，cell state（长期记忆）或者 hidden state（短期输出）乘以该权重值。门控也是深度学习中控制信息流动的核心组件。

1.6 Seq2Seq 架构

于 2014 年提出，以 RNN（或 LSTM）为基础，通过堆叠形成 encoder→decoder（编码器→解码器）架构。早期 Seq2Seq 中，encoder 将输入序列编码为一个固定维度的 hidden state，再传递给 decoder，相当于整个输入序列被压缩为单个 hidden state。

1.7 Attention 结构

2014 年提出，用于解决编码器将序列压缩为单个向量导致的信息丢失问题。对 encoder→decoder 架构进行微调优化，使得 encoder 将所有 hidden state 均传递给 decoder 的模式。其核心逻辑是：decoder 每一步的 hidden state，都会与 encoder 所有词的 hidden state 计算内积，得到注意力权重，经 softmax 归一化后，再与 encoder 的 hidden state 做加权求和，得到上下文向量，然后再和 hidden state 结合后做输出。这个 Attention 和后面的 QKV 矩阵计算很像。

本书内容至此结束，结合后续自然语言处理技术的发展，其演进脉络进一步延伸：

2. 书外延伸

2.1 Transformer 结构

2017 年在《Attention is All You Need》论文中提出，基于带有 Attention 组件的 Seq2Seq 架构演进而来，整体仍保留 encoder→decoder 框架，但不再使用 RNN 的循环结构（实现全序列并行计算，而非按位置串行），同时开始加深层数，并且内部核心组件替换为以下关键部分：

• Attention 计算升级为 Multi-Head Self-Attention（多头自注意力）：通过 Q（查询向量）、K（键向量）、V（值向量）三个矩阵计算实现注意力查找，核心逻辑仍是先通过 Q 与 K 的内积计算注意力权重，再通过权重与 V 的加权求和提取信息。与此前 Attention 的核心区别在于：此前是 decoder 向 encoder 获取信息（交叉注意力），而 Self-Attention 是序列内部的词与词之间相互关注，实现序列内部依赖关系的建模。在此基础上，Transformer 引入了 Multi-Head（多头）机制：将 Q、K、V 各自拆分为多个头（head），每个头独立进行注意力计算，最后将所有头的输出拼接（concat）后通过一个线性投影合并。多头的意义在于让模型能同时从不同的表示子空间捕捉信息------例如一个头关注语法关系，另一个头关注语义相似性------从而显著增强模型的表达能力。这也是后续 GQA（分组查询注意力）、MLA（多头潜在注意力）等改进的基础。
• Cross-Attention（交叉注意力）：原始 Transformer 的 Decoder 层实际上包含三个子层：Masked Self-Attention → Cross-Attention → FFN。其中 Self-Attention 负责目标序列内部的建模（带掩码，防止看到未来的词），Cross-Attention 则负责 Decoder 向 Encoder 获取信息------Q 来自 Decoder 的 Self-Attention 输出，K/V 来自 Encoder 最后一层的输出，本质上就是 1.7 中 Attention 结构在 Transformer 中的延续。也就是说，Transformer 的 Decoder 同时包含了 Self-Attention（序列内部关注）和 Cross-Attention（跨序列关注）两种注意力机制。后续演进到 Decoder-only 架构后，由于去掉了 Encoder，Cross-Attention 随之消失，仅保留 Self-Attention。
• FFN（前馈神经网络）计算：在输出之前进行两次矩阵投影，先通过"上投影"（up-projection）将特征维度提升，再通过"下投影"（down-projection）将维度还原，中间加入非线性激活函数，增强模型的表达能力。

2.2 位置编码（Positional Encoding）

与 Transformer 同时于 2017 年提出，为适配 Transformer 的并行计算特性而引入。由于 Transformer 抛弃了 RNN 的顺序输入模式，采用所有词同时输入的并行方式，无法天然捕捉语序信息，因此需要额外为每个词添加"位置标签"（位置编码），让模型能够分辨词的顺序。其中固定正余弦编码于 2017 年提出，主流的 RoPE（旋转位置编码）于 2021 年提出，大幅提升了模型对长文本的处理能力和建模精度。

2.3 归一化（Normalization）位置优化

Post-Norm 随 2017 年 Transformer 提出；Pre-Norm 思想更早，在 Transformer 架构中于 2019--2020 年逐步流行。为解决极深网络的训练不稳定性问题，对归一化的位置进行了调整，从早期的 Post-Norm（先完成层计算，再进行归一化），演进到如今主流的 Pre-Norm（先进行归一化，再执行层计算），这种调整让残差不受 Norm 的影响，有效缓解了深层网络的梯度消失问题，保证了深层网络（尤其是万亿参数级模型）训练的稳定性，是大模型能够落地的重要基础。

2.4 Decoder-only 架构与大模型演进

Decoder-only 于 2018 年随着 GPT-1 的提出，2019 年 GPT-2 验证其有效性后逐渐成为主流。它对 Seq2Seq 架构做了简化，去掉了 encoder 部分，形成 Decoder-only（仅解码器）架构，这一架构直接引爆了现代大语言模型的发展。后续的技术改进均围绕 Decoder-only 架构的各个环节展开，近几年的核心改进包括：

• 注意力计算改进：线性注意力于 2020 年提出，稀疏注意力于 2019 年提出，核心目的是减少长序列建模时的算力消耗和 KV Cache（键值缓存）的存储开销，提升模型处理长文本的效率。
• FFN 计算改进：MoE（多专家系统）由 Hinton 等人于 1991 年奠定基础，2017 年起在深度学习中重新受到关注。通过 MoE 结构替换部分 FFN 层，将单个 FFN 拆分为多个小型"专家网络"（小型专家网络本质上也是一个 FFN 计算），仅激活与当前输入相关的专家，在提升模型容量的同时，大幅降低了计算量。
• 注意力残差：2026 年后随着大模型深度提升逐步提出并优化，以注意力的思想改造残差连接，原本上一层的 hidden state 作为残差直连加到当前子层的计算结果上，改成了当前层有一个查询向量，和所有历史层的 hidden state 做查询（内积）再计算 softmax，得到每个历史层的权重，权重再乘以每个历史层的 hidden state，然后按位置加和，得到当前层的残差。
• KV Cache 优化：除了上面的之外，在优化注意力计算的 KV Cache 占用方面还有：GQA（2023 年）、MLA（2024 年）等改进。

2.5 Transformer 衍生的另外两条技术路线

• Encoder-only（代表：BERT，2018 年）：去掉 Decoder，仅保留 Encoder，采用双向注意力（每个词同时关注左右所有词）。训练时随机遮盖部分词让模型预测（掩码语言模型，MLM），天然擅长理解类任务（分类、语义匹配等）。后续衍生出 RoBERTa、ALBERT 等变体，目前主要用于搜索、推荐等语义理解场景，常用于 embedding 生成、文本分类、序列标注（如命名实体识别）等。
• Encoder-Decoder（代表：T5，2019 年）：保留完整的 Encoder-Decoder 结构，核心思想是将所有 NLP 任务统一为"文本到文本"格式，Encoder 负责理解，Decoder 负责生成，在翻译、摘要等需要深度理解输入再生成输出的任务上表现优异。

最终，Decoder-only 架构凭借架构简洁、易于规模扩展、通过足够大的参数和数据即可涌现理解能力，成为当前大语言模型的绝对主流。另外两条路线由于扩展性不如 Decoder-only（Encoder-only 无法生成，Encoder-Decoder 架构更复杂、训练成本更高），逐渐退居各自擅长的细分场景。

3. 我的思考

3.1. 技术演进的"忒修斯之船"

技术的演进是一场连续的迭代。word2vec 虽开启了嵌入时代，但其固定的上下文窗口和对词序信息的"抹平"，导致了历史信息与时序特征的缺失。RNN通过引入基于时序的隐藏状态循环传递，成功补齐了这两块"木板"，实现了变长序列的时序建模。然而，这种为了时序而设计的循环结构，却成了阻碍并行计算的枷锁。Transformer 的出现，用自注意力机制替换了递归，并用位置编码实现时序感知。站在今日回看，我们可以从长距离记忆、位置感知、并行化能力这三个维度复盘这波演进。虽然逻辑上存在"一步到位"跨越到 Transformer 的可能，但技术的发展从非一蹴而就。它就像不断被更换木板的"忒修斯之船"：为了追求极致的效果和性能，我们不断"杀死"过时的组件，直到整艘船焕然一新。在人工智能发展的这条航线上，没有永恒不变的架构，唯有持续迭代的生长。

3.2. 创造性的发明是点滴累积带来的质变

当前生成式模型的结构演化自 Transformer，而 Transformer 又来自 RNN 的探索。RNN 的实验提示了序列生成对前序信息的依赖，令注意力思想初现端倪。随后 Transformer 以注意力机制为中心实现去繁就简，而 decoder-only 的生成式架构进一步推向极简。在"大力出奇迹"的尝试下，最终创造者们发现了神经网络结构里隐藏着的宇宙公理：以乘法、加法及少量非线性函数构成的网状计算结构，在规模跨越临界点时会带来智能涌现。"涌现"就像牛顿发现的万有引力，麦克斯韦发现的电磁方程，不需要解释，也无法解释。

3.3. 阅读的价值

最近一年反复看的书是斋藤康毅的《深度学习入门》、《深度学习进阶》，这两本书也比较薄，越读越轻松。深度学习作为当前大模型人工智能的基石，通过阅读入门和进阶书籍，了解当前的生成式模型结构是如何演变而来。初次阅读更多是作者知识的投喂，反复的阅读则会进一步去猜想作者背后的知识发现者是如何考虑的。再结合当前不断出现的模型结构创新，会有一种感触："很有新意，但也并非横空出世，也许我也可以做到"。从 encoder-decoder，到 decoder-only，再到 decoder-only 结构上对注意力计算、FFN 计算的死磕，这几年大结构上并没有太大的变化，新来的人们，从今天起，去学习更本质的知识，也不会太晚，很快大家都会在相同的起跑线上。

4. NLP 技术发展时间线

技术	提出时间	流行/成熟时间	核心地位
同义词	1950s	---	词义表达的最初方式
PMI / PPMI	1990s	2000s	基于共现统计的词向量构建
word2vec	2013	2013--2015	开启神经网络词向量时代
RNN	1980s	2010s	序列建模的基础架构
LSTM	1997	2014	解决长序列梯度消失问题
Seq2Seq	2014	2014--2016	确立编码器-解码器范式
Attention	2014	2015--2017	解决序列压缩信息丢失
Transformer	2017	2017--	奠定现代 NLP 并行计算基础
位置编码（正余弦）	2017	2017--	为并行架构引入语序信息
BERT（Encoder-only）	2018	2018--2020	双向理解类任务的标杆
GPT-1（Decoder-only）	2018	2019--	确立生成式预训练范式
T5（Encoder-Decoder）	2019	2019--2021	统一"文本到文本"范式
稀疏注意力	2019	2019--	长文本效率优化
Pre-Norm	2019--2020	2020--	深层网络训练稳定性保障
线性注意力	2020	2020--	注意力复杂度降维
RoPE（旋转位置编码）	2021	2022--	现代大模型位置编码标配
GQA（分组查询注意力）	2023	2023--	KV Cache 显存优化方案
MLA（多头潜在注意力）	2024	2024--	KV Cache 极致压缩
MoE（多专家系统）	1991 基础 / 2017 复兴	2022--	提升模型容量、降低计算量
动态注意力残差（Kimi AttnRes）	2026	-	跨层信息检索与融合

本文所在：https://www.cnblogs.com/cswuyg/p/19861218