[人工智能-大模型-33]：模型层技术 - 大模型的神经网络架构

大模型的神经网络架构详解：从Transformer到现代变体

大型语言模型（Large Language Models, LLMs）的核心是其神经网络架构 。自2017年《Attention Is All You Need》论文提出 Transformer 架构 以来，它已成为几乎所有大模型（如GPT、Llama、Qwen、Claude等）的基础骨架。

本文将深入剖析大模型所采用的神经网络架构，涵盖其核心组件、工作原理、关键变体 以及现代优化技术。

一、基石：Transformer 架构

Transformer 是大模型的"基因"。它彻底摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN），完全依赖**自注意力机制（Self-Attention）**来处理序列数据。

1.1 整体结构

Transformer 由**编码器（Encoder）和解码器（Decoder）**两部分组成：

复制代码

┌─────────────────────────────┐    ┌─────────────────────────────┐
│         Encoder             │    │         Decoder             │
│                             │    │                             │
│  ┌───┐   ┌──────────────┐   │    │  ┌───┐   ┌──────────────┐   │
│  │ E │ → │ Transformer  │   │    │  │ D │ → │ Transformer  │   │
│  │ m │   │     Block    │   │    │  │ e │   │     Block    │ ←─┤ Masked Self-Attn
│  │ b │   └──────────────┘   │    │  │ c │   └──────────────┘   │
│  │   │          ↓           │    │  │ o │          ↓           │
│  │   │   ┌──────────────┐   │    │  │ d │   ┌──────────────┐   │
│  │   │ → │ Transformer  │   │    │  │   │ → │ Transformer  │   │
│  │   │   │     Block    │   │    │  │   │   │     Block    │   │
│  │   │   └──────────────┘   │    │  │   │   └──────────────┘   │
│  └───┘          ↓           │    │  └───┘          ↓           │
│               ...           │    │               ...           │
│  ┌───┐   ┌──────────────┐   │    │  ┌───┐   ┌──────────────┐   │
│  │   │ → │ Transformer  │   │    │  │   │ → │ Transformer  │   │
│  │   │   │     Block    │   │    │  │   │   │     Block    │   │
│  └───┘   └──────────────┘   │    │  └───┘   └──────────────┘   │
└─────────────────────────────┘    └─────────────────────────────┘
       ↑                                     ↑
 Input Embedding                    Output Embedding + LM Head

Encoder ：用于理解输入（如BERT）。
Decoder ：用于生成输出（如GPT系列）。
大语言模型（LLM）通常只使用 Decoder 部分，称为 Decoder-only 架构。

二、核心组件：Transformer 块（Block）

每个 Transformer 块是模型的基本计算单元，通常包含两个核心子模块：

2.1 自注意力机制（Self-Attention Mechanism）

这是 Transformer 的"灵魂"，让模型能够动态关注序列中的相关部分。

(1) 计算流程

给定输入向量序列 X∈Rn×dX∈Rn×d，其中 nn 是序列长度，dd 是隐藏维度。

线性变换生成 Q, K, V：
- Q=XWQ,K=XWK,V=XWVQ=XWQ,K=XWK,V=XWV
- WQ,WK,WVWQ,WK,WV 是可学习的权重矩阵。
计算注意力分数：
- Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V
- dkdk 是缩放因子，防止梯度消失。
多头注意力（Multi-Head Attention, MHA）：
- 将 Q, K, V 拆分为 hh 个"头"（如 h=32），并行计算注意力。
- 每个头学习不同的语义关系（如语法、指代、情感）。
- 最后将所有头的输出拼接并线性变换。

✅ 优势：并行计算，支持长距离依赖，捕捉全局上下文。

(2) 掩码自注意力（Masked Self-Attention）

在解码器 中，为了防止模型在生成第 tt 个Token时"偷看"未来的Token，引入因果掩码（Causal Mask）。

python

复制代码

# 举例：3个Token的掩码矩阵
mask = [[1, 0, 0],
        [1, 1, 0],
        [1, 1, 1]]

只允许每个Token关注它自身及之前的Token。
这是自回归生成的基础。

2.2 前馈神经网络（Feed-Forward Network, FFN）

在自注意力之后，对每个位置的表示进行非线性变换。

结构：
- 两层全连接网络 + 激活函数。
- FFN(x)=W2⋅GELU(W1⋅x+b1)+b2FFN(x)=W2⋅GELU(W1⋅x+b1)+b2
特点：
- 参数独立于位置，对每个Token单独处理。
- 扩展维度（如4倍隐藏层大小），增强表达能力。

2.3 残差连接与层归一化（Residual Connection & LayerNorm）

每个子模块（自注意力、FFN）前后都有：

残差连接（Residual Connection） ：
- Output=Sublayer(LayerNorm(x))+xOutput=Sublayer(LayerNorm(x))+x
- 防止梯度消失，支持深层网络。
层归一化（Layer Normalization） ：
- 对每个样本的特征进行归一化，稳定训练过程。

三、现代大模型架构的演进与变体

虽然基础是Transformer，但现代大模型在架构上进行了大量优化和创新。

3.1 Decoder-Only 架构（GPT 系列）

代表：GPT-3、GPT-4、Llama 3、Qwen、Mistral
特点：
- 仅使用解码器堆栈。
- 采用掩码自注意力，适合自回归生成。
- 结构简单，易于扩展。
优势：天然适合文本生成任务，是当前主流。

3.2 编-解码架构（Encoder-Decoder）

代表：T5、BART
特点：
- 同时使用编码器和解码器。
- 解码器中还包含交叉注意力（Cross-Attention），让解码器关注编码器的输出。
适用任务 ：机器翻译、文本摘要等需要"理解-生成"的任务。

3.3 混合专家模型（MoE, Mixture of Experts）

代表：Google GLaM、Mistral Mixtral 8x7B、DeepSeek-MoE
核心思想 ：
- 在FFN层引入多个"专家"（Expert）网络。
- 使用一个"门控网络"（Router）决定每个Token由哪个（或哪几个）专家处理。
公式：
- MoE(x)=∑i=1Ngi(x)⋅Ei(x)MoE(x)=∑i=1Ngi(x)⋅Ei(x)
- 其中 gi(x)gi(x) 是第 ii 个专家的门控权重，Ei(x)Ei(x) 是专家网络。
优势：
- 激活参数少：每次只激活部分专家，推理成本低。
- 总参数多：整体模型容量大，性能强。
示例：Mixtral 8x7B 有8个专家，每次激活2个，等效于一个12B模型，但推理速度接近7B。

3.4 旋转位置编码（RoPE, Rotary Position Embedding）

问题：传统绝对位置编码难以外推到更长序列。
解决方案 ：RoPE
- 将位置信息通过旋转矩阵融入Q、K向量。
- 公式：Qm=WQxmeimθ,Kn=WKxneinθQm=WQxmeimθ,Kn=WKxneinθ
优势：
- 天然支持长序列外推（如从8K扩展到32K）。
- 提升长距离依赖建模能力。
应用：Llama 3、Qwen、ChatGLM 等广泛采用。

3.5 分组查询注意力（GQA, Grouped Query Attention）

背景：KV Cache 占用大量显存，限制长上下文。
GQA 原理 ：
- 传统MHA：每个头有自己的K、V。
- GQA：多个Query头共享一组K、V。
- 介于MHA和MQA（Multi-Query Attention）之间。
优势：
- 显著减少KV Cache内存占用。
- 保持较好的生成质量。
应用：Llama 3-70B、PaLM 2 采用GQA以支持长上下文。

四、典型大模型架构对比

模型	架构类型	关键技术	上下文长度	备注
GPT-3/4	Decoder-only	MHA, RoPE (推测)	32K / 128K+	闭源，性能顶尖
Llama 3	Decoder-only	GQA, RoPE, SwiGLU	8K	开源标杆
Qwen	Decoder-only	RoPE, ALiBi (早期)	32K / 128K	支持超长上下文
Mixtral 8x7B	MoE (Decoder-only)	Sparse MoE, RoPE	32K	激活参数≈12B
ChatGLM3	Encoder-Decoder?	GLM 架构, RoPE	32K	清华智谱

🔍 注：部分细节（如GPT-4）为社区推测，官方未完全公开。

五、总结：大模型神经网络架构的演进趋势

基础不变 ：Transformer 解码器仍是绝对主流。
效率优先 ：MoE、GQA、量化等技术大幅降低推理成本。
长上下文 ：RoPE、滑动窗口、KV Cache 优化支持128K+ tokens。
开源驱动：Llama、Qwen 等开源模型推动架构创新快速传播。

结语

大模型的神经网络架构，本质上是一个基于 Transformer 的、不断进化的复杂系统 。从最初的纯 MHA + FFN，到如今的 MoE、GQA、RoPE 等高级组件，每一次架构创新都在追求 更高性能、更低成本、更强能力。

理解这些架构细节，不仅能帮助我们更好地使用大模型，也为模型微调、推理优化、Agent 设计提供了坚实的底层支撑。