从 GPT 到 GPT-2:解密生成式预训练模型的架构演进

摘要: 在如今大语言模型(LLM)百花齐放的2026年,我们回望过去,OpenAI 提出的 GPT(Generative Pre-trained Transformer)系列无疑是这一领域的奠基之作。本文将深入剖析 GPT 和 GPT-2 的核心技术架构,探讨它们如何通过单向 Transformer 解码器实现强大的文本生成能力,并揭示两者在模型规模与细节上的关键差异。


1. 引言:生成式模型的崛起

在自然语言处理(NLP)的发展史上,2018年是一个分水岭。在此之前,BERT 等双向模型主导了自然语言理解(NLU)任务。然而,OpenAI 发表的论文《Improving Language Understanding by Generative Pre-Training》提出了一个截然不同的方向------GPT

与 BERT 利用双向上下文预测掩码词不同,GPT 采用传统的**自回归(Autoregressive)方法,即利用上文预测下一个单词。这种设计使得 GPT 在自然语言生成(NLG)**任务上具有天然优势。

随后,OpenAI 在论文《Language Models are Unsupervised Multitask Learners》中发布了 GPT-2。虽然架构上没有颠覆性的创新,但 GPT-2 通过使用更大的数据集和更庞大的模型参数,证明了"缩放法则(Scaling Law)"的威力。

2. 核心架构:Transformer 解码器的独奏

GPT 和 GPT-2 的核心架构完全基于 Transformer 的**解码器(Decoder)**模块。为了理解它们的工作原理,我们需要明确它们与经典 Transformer 的区别。

2.1 为什么选择解码器?

经典的 Transformer 由编码器(Encoder)和解码器(Decoder)组成。

  • BERT :仅使用 Encoder,擅长理解(NLU)。
  • GPT/GPT-2 :仅使用 Decoder,擅长生成(NLG)。

GPT 系列模型对 Decoder Block 进行了特定的改造:

子层名称 经典 Transformer Decoder GPT / GPT-2 Decoder
多头注意力 Masked Multi-Head Attention Masked Multi-Head Attention
交互注意力 Encoder-Decoder Attention (已移除)
前馈网络 Feed Forward Feed Forward

关键改动: GPT 模型移除了"Encoder-Decoder Attention"层。因为 GPT 是一个纯语言模型,不需要像机器翻译那样关注编码器的输出,它只需要关注输入序列本身。

2.2 单向性的奥秘:Masked Self-Attention

为了让模型在预测单词 uiu_iui 时只能看到上文 [u1,...,ui−1][u_1, ..., u_{i-1}][u1,...,ui−1] 而不能看到未来的信息,GPT 引入了 Masked Self-Attention 机制。

  • 原理: 在计算注意力分数(Attention Score)进行 Softmax 之前,将未来位置(右侧)的数值替换为一个无穷小的数(−∞-\infty−∞)。
  • 结果: 经过 Softmax 后,未来位置的权重变为 0。例如,在预测单词 "C" 时,模型只能利用 "A" 和 "B" 的信息,从而保证了生成的因果性。

3. 深度解析:GPT 与 GPT-2 的细节对比

虽然两者架构相似,但 GPT-2 在细节处理和规模上进行了显著的升级。

3.1 模型规模的跃迁

GPT 最初的版本采用了 12 层 Decoder Block 堆叠。而 GPT-2 为了追求更强的性能,设计了多个不同规模的版本,通过堆叠更深的层数来提升模型容量:

GPT-2 版本 层数 (Blocks) 模型维度 (Dimension) 存储空间
Small (最小版) 12 768 > 500MB
Medium (中号) 24 1024 -
Large (大号) 36 1280 -
Extra Large (超大号) 48 1600 > 6.5GB

注:GPT-2 的最大版本参数量远超初代 GPT,这也是其能处理更复杂任务的关键。

3.2 输入表示与位置编码

GPT-2 继承了 GPT 的输入处理方式,输入张量 h0h_0h0 是词嵌入(Token Embeddings)与位置编码(Positional Encodings)的加和:

h0=UWe+Wph_0 = U W_e + W_ph0=UWe+Wp

  • 词嵌入 (WeW_eWe):查找表,将单词映射为向量。
  • 位置编码 (WpW_pWp):由于 Transformer 没有循环或卷积结构,必须显式地加入位置信息。
  • GPT-2 细节 :GPT-2 的词表大小扩充到了 50,257,且能处理最长 1024 个 Token 的序列。
3.3 自注意力机制的运作(QKV)

GPT-2 的核心运算逻辑依然遵循 Query (查询), Key (键), Value (值) 的机制。

我们可以用一个形象的比喻来理解:

  • Query (Q):就像一张便利贴,写着你当前正在研究的课题(当前单词)。
  • Key (K):像档案柜上文件夹的标签。
  • Value (V):文件夹里实际存放的文件内容。

计算流程:

  1. 计算当前单词的 Query 向量与所有单词的 Key 向量的点积,得到注意力分数(相关度)。
  2. 将分数归一化(Softmax)。
  3. 用归一化后的分数对 Value 向量进行加权求和。
  4. 输出向量作为当前单词在上下文中的新表征。

4. 训练范式:预训练与微调

GPT 系列模型遵循典型的"两阶段"训练过程。

4.1 第一阶段:无监督预训练

目标是最大化给定上文下的单词似然概率。 L1(U)=∑ilog⁡P(ui∣ui−k,...,ui−1;Θ)L_1(U) = \sum_{i} \log P(u_i | u_{i-k}, \dots, u_{i-1}; \Theta)L1(U)=i∑logP(ui∣ui−k,...,ui−1;Θ)

  • 任务:给定句子的一部分,预测下一个单词。
  • 数据:海量的无标注文本(GPT-2 使用了 40GB 的互联网数据集)。
4.2 第二阶段:有监督微调 (Fine-tuning)

在特定下游任务(如文本分类、问答)上,利用带标签的数据对预训练参数进行微调。

  • 输入 :单词序列 [x1,...,xn][x_1, ..., x_n][x1,...,xn] 和标签 yyy。
  • 目标 :最大化预测标签 yyy 的概率。

5. 生成策略:Top-K 采样

GPT-2 是一个自回归模型,它一次只生成一个 Token。在生成过程中,如何从输出的概率分布中选择下一个单词至关重要。

  • 贪婪搜索 (Greedy Search) :每次都选择概率最高的单词(Top-1)。
    • 缺点:容易陷入循环或生成重复、无意义的文本。
  • Top-K 采样
    • 从概率最高的 K 个单词中进行随机抽样。
    • 例如设置 K=40K=40K=40,模型会从得分前 40 的单词中按概率选取下一个词。
    • 优势:增加了生成的多样性,避免了死板的重复,是 GPT-2 推荐的生成策略。

6. 结论

回顾 GPT 和 GPT-2 的发展历程,我们可以清晰地看到:简单的架构(仅解码器)+ 大规模的数据 + 巨大的参数量,能够涌现出惊人的语言理解和生成能力。

GPT 确立了单向生成的范式,而 GPT-2 则证明了通过扩大模型规模,可以无需针对特定任务微调(Zero-shot)就能在多种任务上取得优异表现。这两个模型不仅是技术上的里程碑,更是通向如今通用人工智能(AGI)探索道路上的关键基石。

相关推荐
白狐_7988 小时前
2026 避坑指南:GPT-5.4 Codex、OpenClaw 与订阅版本全解析
gpt·自动化代理
智算菩萨19 小时前
GPT-5.4原生操控电脑揭秘:从Playwright脚本到屏幕截图识别,手把手搭建你的第一个自动化智能体
人工智能·gpt·ai·chatgpt·自动化
x-cmd1 天前
[260307] x-cmd v0.8.6:新增 gpt-5.4 模型支持,sudo/os/hostname/cpu 等模块文档更新
java·数据库·gpt·sudo·x-cmd·googel
2501_948114241 天前
星链4SAPI + OpenClaw实战:给GPT-5.4与Claude 4.6装上“职业传送门”
python·gpt·架构
BUG?不,是彩蛋!1 天前
从 Q-Learning 到 LLM:我把 AI 的“大脑”换成了 GPT,发生了什么?
人工智能·python·gpt
体育分享_大眼1 天前
AI天花板级碰撞!GPT-5.4正式接入DataEyes,数据智能进入「秒级响应」时代
大数据·人工智能·gpt
流氓架构师1 天前
正面交锋:Gemini 3.1 Pro与GPT-5.4的技术分野与选择逻辑
人工智能·gpt
2501_945837432 天前
OpenClaw 与 GPT-5 中转站的碰撞
gpt
AndrewHZ2 天前
【大模型通关指南】2. 大模型发展时间线:从GPT-1到当前主流模型的演进逻辑
人工智能·gpt·语言模型·大模型·llm·主流模型