从 GPT 到 GPT-2：解密生成式预训练模型的架构演进

摘要： 在如今大语言模型（LLM）百花齐放的2026年，我们回望过去，OpenAI 提出的 GPT（Generative Pre-trained Transformer）系列无疑是这一领域的奠基之作。本文将深入剖析 GPT 和 GPT-2 的核心技术架构，探讨它们如何通过单向 Transformer 解码器实现强大的文本生成能力，并揭示两者在模型规模与细节上的关键差异。

1. 引言：生成式模型的崛起

在自然语言处理（NLP）的发展史上，2018年是一个分水岭。在此之前，BERT 等双向模型主导了自然语言理解（NLU）任务。然而，OpenAI 发表的论文《Improving Language Understanding by Generative Pre-Training》提出了一个截然不同的方向------GPT。

与 BERT 利用双向上下文预测掩码词不同，GPT 采用传统的**自回归（Autoregressive）方法，即利用上文预测下一个单词。这种设计使得 GPT 在自然语言生成（NLG）**任务上具有天然优势。

随后，OpenAI 在论文《Language Models are Unsupervised Multitask Learners》中发布了 GPT-2。虽然架构上没有颠覆性的创新，但 GPT-2 通过使用更大的数据集和更庞大的模型参数，证明了"缩放法则（Scaling Law）"的威力。

2. 核心架构：Transformer 解码器的独奏

GPT 和 GPT-2 的核心架构完全基于 Transformer 的**解码器（Decoder）**模块。为了理解它们的工作原理，我们需要明确它们与经典 Transformer 的区别。

2.1 为什么选择解码器？

经典的 Transformer 由编码器（Encoder）和解码器（Decoder）组成。

BERT ：仅使用 Encoder，擅长理解（NLU）。
GPT/GPT-2 ：仅使用 Decoder，擅长生成（NLG）。

GPT 系列模型对 Decoder Block 进行了特定的改造：

子层名称	经典 Transformer Decoder	GPT / GPT-2 Decoder
多头注意力	Masked Multi-Head Attention	Masked Multi-Head Attention
交互注意力	Encoder-Decoder Attention	(已移除)
前馈网络	Feed Forward	Feed Forward

关键改动： GPT 模型移除了"Encoder-Decoder Attention"层。因为 GPT 是一个纯语言模型，不需要像机器翻译那样关注编码器的输出，它只需要关注输入序列本身。

2.2 单向性的奥秘：Masked Self-Attention

为了让模型在预测单词 uiu_iui 时只能看到上文 [u1,...,ui−1][u_1, ..., u_{i-1}][u1,...,ui−1] 而不能看到未来的信息，GPT 引入了 Masked Self-Attention 机制。

原理： 在计算注意力分数（Attention Score）进行 Softmax 之前，将未来位置（右侧）的数值替换为一个无穷小的数（−∞-\infty−∞）。
结果： 经过 Softmax 后，未来位置的权重变为 0。例如，在预测单词 "C" 时，模型只能利用 "A" 和 "B" 的信息，从而保证了生成的因果性。

3. 深度解析：GPT 与 GPT-2 的细节对比

虽然两者架构相似，但 GPT-2 在细节处理和规模上进行了显著的升级。

3.1 模型规模的跃迁

GPT 最初的版本采用了 12 层 Decoder Block 堆叠。而 GPT-2 为了追求更强的性能，设计了多个不同规模的版本，通过堆叠更深的层数来提升模型容量：

GPT-2 版本	层数 (Blocks)	模型维度 (Dimension)	存储空间
Small (最小版)	12	768	> 500MB
Medium (中号)	24	1024	-
Large (大号)	36	1280	-
Extra Large (超大号)	48	1600	> 6.5GB

注：GPT-2 的最大版本参数量远超初代 GPT，这也是其能处理更复杂任务的关键。

3.2 输入表示与位置编码

GPT-2 继承了 GPT 的输入处理方式，输入张量 h0h_0h0 是词嵌入（Token Embeddings）与位置编码（Positional Encodings）的加和：

h0=UWe+Wph_0 = U W_e + W_ph0=UWe+Wp

词嵌入 (WeW_eWe)：查找表，将单词映射为向量。
位置编码 (WpW_pWp)：由于 Transformer 没有循环或卷积结构，必须显式地加入位置信息。
GPT-2 细节 ：GPT-2 的词表大小扩充到了 50,257，且能处理最长 1024 个 Token 的序列。

3.3 自注意力机制的运作（QKV）

GPT-2 的核心运算逻辑依然遵循 Query (查询), Key (键), Value (值) 的机制。

我们可以用一个形象的比喻来理解：

Query (Q)：就像一张便利贴，写着你当前正在研究的课题（当前单词）。
Key (K)：像档案柜上文件夹的标签。
Value (V)：文件夹里实际存放的文件内容。

计算流程：

计算当前单词的 Query 向量与所有单词的 Key 向量的点积，得到注意力分数（相关度）。
将分数归一化（Softmax）。
用归一化后的分数对 Value 向量进行加权求和。
输出向量作为当前单词在上下文中的新表征。

4. 训练范式：预训练与微调

GPT 系列模型遵循典型的"两阶段"训练过程。

4.1 第一阶段：无监督预训练

目标是最大化给定上文下的单词似然概率。 L1(U)=∑ilog⁡P(ui∣ui−k,...,ui−1;Θ)L_1(U) = \sum_{i} \log P(u_i | u_{i-k}, \dots, u_{i-1}; \Theta)L1(U)=i∑logP(ui∣ui−k,...,ui−1;Θ)

任务：给定句子的一部分，预测下一个单词。
数据：海量的无标注文本（GPT-2 使用了 40GB 的互联网数据集）。

4.2 第二阶段：有监督微调 (Fine-tuning)

在特定下游任务（如文本分类、问答）上，利用带标签的数据对预训练参数进行微调。

输入：单词序列 [x1,...,xn][x_1, ..., x_n][x1,...,xn] 和标签 yyy。
目标：最大化预测标签 yyy 的概率。

5. 生成策略：Top-K 采样

GPT-2 是一个自回归模型，它一次只生成一个 Token。在生成过程中，如何从输出的概率分布中选择下一个单词至关重要。

贪婪搜索 (Greedy Search) ：每次都选择概率最高的单词（Top-1）。
- 缺点：容易陷入循环或生成重复、无意义的文本。
Top-K 采样 ：
- 从概率最高的 K 个单词中进行随机抽样。
- 例如设置 K=40K=40K=40，模型会从得分前 40 的单词中按概率选取下一个词。
- 优势：增加了生成的多样性，避免了死板的重复，是 GPT-2 推荐的生成策略。

6. 结论

回顾 GPT 和 GPT-2 的发展历程，我们可以清晰地看到：简单的架构（仅解码器）+ 大规模的数据 + 巨大的参数量，能够涌现出惊人的语言理解和生成能力。

GPT 确立了单向生成的范式，而 GPT-2 则证明了通过扩大模型规模，可以无需针对特定任务微调（Zero-shot）就能在多种任务上取得优异表现。这两个模型不仅是技术上的里程碑，更是通向如今通用人工智能（AGI）探索道路上的关键基石。