大模型的神经网络架构详解:从Transformer到现代变体
大型语言模型(Large Language Models, LLMs)的核心是其神经网络架构 。自2017年《Attention Is All You Need》论文提出 Transformer 架构 以来,它已成为几乎所有大模型(如GPT、Llama、Qwen、Claude等)的基础骨架。
本文将深入剖析大模型所采用的神经网络架构,涵盖其核心组件、工作原理、关键变体 以及现代优化技术。
一、基石:Transformer 架构
Transformer 是大模型的"基因"。它彻底摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),完全依赖**自注意力机制(Self-Attention)**来处理序列数据。
1.1 整体结构
Transformer 由**编码器(Encoder)和解码器(Decoder)**两部分组成:
┌─────────────────────────────┐ ┌─────────────────────────────┐
│ Encoder │ │ Decoder │
│ │ │ │
│ ┌───┐ ┌──────────────┐ │ │ ┌───┐ ┌──────────────┐ │
│ │ E │ → │ Transformer │ │ │ │ D │ → │ Transformer │ │
│ │ m │ │ Block │ │ │ │ e │ │ Block │ ←─┤ Masked Self-Attn
│ │ b │ └──────────────┘ │ │ │ c │ └──────────────┘ │
│ │ │ ↓ │ │ │ o │ ↓ │
│ │ │ ┌──────────────┐ │ │ │ d │ ┌──────────────┐ │
│ │ │ → │ Transformer │ │ │ │ │ → │ Transformer │ │
│ │ │ │ Block │ │ │ │ │ │ Block │ │
│ │ │ └──────────────┘ │ │ │ │ └──────────────┘ │
│ └───┘ ↓ │ │ └───┘ ↓ │
│ ... │ │ ... │
│ ┌───┐ ┌──────────────┐ │ │ ┌───┐ ┌──────────────┐ │
│ │ │ → │ Transformer │ │ │ │ │ → │ Transformer │ │
│ │ │ │ Block │ │ │ │ │ │ Block │ │
│ └───┘ └──────────────┘ │ │ └───┘ └──────────────┘ │
└─────────────────────────────┘ └─────────────────────────────┘
↑ ↑
Input Embedding Output Embedding + LM Head
- Encoder :用于理解输入(如BERT)。
- Decoder :用于生成输出(如GPT系列)。
- 大语言模型(LLM)通常只使用 Decoder 部分,称为 Decoder-only 架构。
二、核心组件:Transformer 块(Block)
每个 Transformer 块是模型的基本计算单元,通常包含两个核心子模块:
2.1 自注意力机制(Self-Attention Mechanism)
这是 Transformer 的"灵魂",让模型能够动态关注序列中的相关部分。
(1) 计算流程
给定输入向量序列 X∈Rn×dX∈Rn×d,其中 nn 是序列长度,dd 是隐藏维度。
-
线性变换生成 Q, K, V:
- Q=XWQ,K=XWK,V=XWVQ=XWQ,K=XWK,V=XWV
- WQ,WK,WVWQ,WK,WV 是可学习的权重矩阵。
-
计算注意力分数:
- Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V
- dkdk 是缩放因子,防止梯度消失。
-
多头注意力(Multi-Head Attention, MHA):
- 将 Q, K, V 拆分为 hh 个"头"(如 h=32),并行计算注意力。
- 每个头学习不同的语义关系(如语法、指代、情感)。
- 最后将所有头的输出拼接并线性变换。
✅ 优势:并行计算,支持长距离依赖,捕捉全局上下文。
(2) 掩码自注意力(Masked Self-Attention)
在解码器 中,为了防止模型在生成第 tt 个Token时"偷看"未来的Token,引入因果掩码(Causal Mask)。
python
# 举例:3个Token的掩码矩阵
mask = [[1, 0, 0],
[1, 1, 0],
[1, 1, 1]]
- 只允许每个Token关注它自身及之前的Token。
- 这是自回归生成的基础。
2.2 前馈神经网络(Feed-Forward Network, FFN)
在自注意力之后,对每个位置的表示进行非线性变换。
- 结构 :
- 两层全连接网络 + 激活函数。
- FFN(x)=W2⋅GELU(W1⋅x+b1)+b2FFN(x)=W2⋅GELU(W1⋅x+b1)+b2
- 特点 :
- 参数独立于位置,对每个Token单独处理。
- 扩展维度(如4倍隐藏层大小),增强表达能力。
2.3 残差连接与层归一化(Residual Connection & LayerNorm)
每个子模块(自注意力、FFN)前后都有:
- 残差连接(Residual Connection) :
- Output=Sublayer(LayerNorm(x))+xOutput=Sublayer(LayerNorm(x))+x
- 防止梯度消失,支持深层网络。
- 层归一化(Layer Normalization) :
- 对每个样本的特征进行归一化,稳定训练过程。
三、现代大模型架构的演进与变体
虽然基础是Transformer,但现代大模型在架构上进行了大量优化和创新。
3.1 Decoder-Only 架构(GPT 系列)
- 代表:GPT-3、GPT-4、Llama 3、Qwen、Mistral
- 特点 :
- 仅使用解码器堆栈。
- 采用掩码自注意力,适合自回归生成。
- 结构简单,易于扩展。
- 优势:天然适合文本生成任务,是当前主流。
3.2 编-解码架构(Encoder-Decoder)
- 代表:T5、BART
- 特点 :
- 同时使用编码器和解码器。
- 解码器中还包含交叉注意力(Cross-Attention),让解码器关注编码器的输出。
- 适用任务 :机器翻译、文本摘要等需要"理解-生成"的任务。
3.3 混合专家模型(MoE, Mixture of Experts)
- 代表:Google GLaM、Mistral Mixtral 8x7B、DeepSeek-MoE
- 核心思想 :
- 在FFN层引入多个"专家"(Expert)网络。
- 使用一个"门控网络"(Router)决定每个Token由哪个(或哪几个)专家处理。
- 公式 :
- MoE(x)=∑i=1Ngi(x)⋅Ei(x)MoE(x)=∑i=1Ngi(x)⋅Ei(x)
- 其中 gi(x)gi(x) 是第 ii 个专家的门控权重,Ei(x)Ei(x) 是专家网络。
- 优势 :
- 激活参数少:每次只激活部分专家,推理成本低。
- 总参数多:整体模型容量大,性能强。
- 示例:Mixtral 8x7B 有8个专家,每次激活2个,等效于一个12B模型,但推理速度接近7B。
3.4 旋转位置编码(RoPE, Rotary Position Embedding)
- 问题:传统绝对位置编码难以外推到更长序列。
- 解决方案 :RoPE
- 将位置信息通过旋转矩阵融入Q、K向量。
- 公式:Qm=WQxmeimθ,Kn=WKxneinθQm=WQxmeimθ,Kn=WKxneinθ
- 优势 :
- 天然支持长序列外推(如从8K扩展到32K)。
- 提升长距离依赖建模能力。
- 应用:Llama 3、Qwen、ChatGLM 等广泛采用。
3.5 分组查询注意力(GQA, Grouped Query Attention)
- 背景:KV Cache 占用大量显存,限制长上下文。
- GQA 原理 :
- 传统MHA:每个头有自己的K、V。
- GQA:多个Query头共享一组K、V。
- 介于MHA和MQA(Multi-Query Attention)之间。
- 优势 :
- 显著减少KV Cache内存占用。
- 保持较好的生成质量。
- 应用:Llama 3-70B、PaLM 2 采用GQA以支持长上下文。
四、典型大模型架构对比
模型 | 架构类型 | 关键技术 | 上下文长度 | 备注 |
---|---|---|---|---|
GPT-3/4 | Decoder-only | MHA, RoPE (推测) | 32K / 128K+ | 闭源,性能顶尖 |
Llama 3 | Decoder-only | GQA, RoPE, SwiGLU | 8K | 开源标杆 |
Qwen | Decoder-only | RoPE, ALiBi (早期) | 32K / 128K | 支持超长上下文 |
Mixtral 8x7B | MoE (Decoder-only) | Sparse MoE, RoPE | 32K | 激活参数≈12B |
ChatGLM3 | Encoder-Decoder? | GLM 架构, RoPE | 32K | 清华智谱 |
🔍 注:部分细节(如GPT-4)为社区推测,官方未完全公开。
五、总结:大模型神经网络架构的演进趋势
- 基础不变 :Transformer 解码器仍是绝对主流。
- 效率优先 :MoE、GQA、量化等技术大幅降低推理成本。
- 长上下文 :RoPE、滑动窗口、KV Cache 优化支持128K+ tokens。
- 开源驱动:Llama、Qwen 等开源模型推动架构创新快速传播。
结语
大模型的神经网络架构,本质上是一个基于 Transformer 的、不断进化的复杂系统 。从最初的纯 MHA + FFN,到如今的 MoE、GQA、RoPE 等高级组件,每一次架构创新都在追求 更高性能、更低成本、更强能力。
理解这些架构细节,不仅能帮助我们更好地使用大模型,也为模型微调、推理优化、Agent 设计提供了坚实的底层支撑。