[人工智能-大模型-33]:模型层技术 - 大模型的神经网络架构

大模型的神经网络架构详解:从Transformer到现代变体

大型语言模型(Large Language Models, LLMs)的核心是其神经网络架构 。自2017年《Attention Is All You Need》论文提出 Transformer 架构 以来,它已成为几乎所有大模型(如GPT、Llama、Qwen、Claude等)的基础骨架

本文将深入剖析大模型所采用的神经网络架构,涵盖其核心组件、工作原理、关键变体 以及现代优化技术


一、基石:Transformer 架构

Transformer 是大模型的"基因"。它彻底摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),完全依赖**自注意力机制(Self-Attention)**来处理序列数据。

1.1 整体结构

Transformer 由**编码器(Encoder)解码器(Decoder)**两部分组成:

复制代码
┌─────────────────────────────┐    ┌─────────────────────────────┐
│         Encoder             │    │         Decoder             │
│                             │    │                             │
│  ┌───┐   ┌──────────────┐   │    │  ┌───┐   ┌──────────────┐   │
│  │ E │ → │ Transformer  │   │    │  │ D │ → │ Transformer  │   │
│  │ m │   │     Block    │   │    │  │ e │   │     Block    │ ←─┤ Masked Self-Attn
│  │ b │   └──────────────┘   │    │  │ c │   └──────────────┘   │
│  │   │          ↓           │    │  │ o │          ↓           │
│  │   │   ┌──────────────┐   │    │  │ d │   ┌──────────────┐   │
│  │   │ → │ Transformer  │   │    │  │   │ → │ Transformer  │   │
│  │   │   │     Block    │   │    │  │   │   │     Block    │   │
│  │   │   └──────────────┘   │    │  │   │   └──────────────┘   │
│  └───┘          ↓           │    │  └───┘          ↓           │
│               ...           │    │               ...           │
│  ┌───┐   ┌──────────────┐   │    │  ┌───┐   ┌──────────────┐   │
│  │   │ → │ Transformer  │   │    │  │   │ → │ Transformer  │   │
│  │   │   │     Block    │   │    │  │   │   │     Block    │   │
│  └───┘   └──────────────┘   │    │  └───┘   └──────────────┘   │
└─────────────────────────────┘    └─────────────────────────────┘
       ↑                                     ↑
 Input Embedding                    Output Embedding + LM Head
  • Encoder用于理解输入(如BERT)。
  • Decoder用于生成输出(如GPT系列)。
  • 大语言模型(LLM)通常只使用 Decoder 部分,称为 Decoder-only 架构。

二、核心组件:Transformer 块(Block)

每个 Transformer 块是模型的基本计算单元,通常包含两个核心子模块:

2.1 自注意力机制(Self-Attention Mechanism)

这是 Transformer 的"灵魂",让模型能够动态关注序列中的相关部分。

(1) 计算流程

给定输入向量序列 X∈Rn×dX∈Rn×d,其中 nn 是序列长度,dd 是隐藏维度。

  1. 线性变换生成 Q, K, V

    • Q=XWQ,K=XWK,V=XWVQ=XWQ,K=XWK,V=XWV
    • WQ,WK,WVWQ,WK,WV 是可学习的权重矩阵。
  2. 计算注意力分数

    • Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V
    • dkdk 是缩放因子,防止梯度消失。
  3. 多头注意力(Multi-Head Attention, MHA)

    • 将 Q, K, V 拆分为 hh 个"头"(如 h=32),并行计算注意力。
    • 每个头学习不同的语义关系(如语法、指代、情感)。
    • 最后将所有头的输出拼接并线性变换。

优势:并行计算,支持长距离依赖,捕捉全局上下文。

(2) 掩码自注意力(Masked Self-Attention)

解码器 中,为了防止模型在生成第 tt 个Token时"偷看"未来的Token,引入因果掩码(Causal Mask)

python

复制代码
# 举例:3个Token的掩码矩阵
mask = [[1, 0, 0],
        [1, 1, 0],
        [1, 1, 1]]
  • 只允许每个Token关注它自身及之前的Token。
  • 这是自回归生成的基础。

2.2 前馈神经网络(Feed-Forward Network, FFN)

在自注意力之后,对每个位置的表示进行非线性变换。

  • 结构
    • 两层全连接网络 + 激活函数。
    • FFN(x)=W2⋅GELU(W1⋅x+b1)+b2FFN(x)=W2⋅GELU(W1⋅x+b1)+b2
  • 特点
    • 参数独立于位置,对每个Token单独处理。
    • 扩展维度(如4倍隐藏层大小),增强表达能力。

2.3 残差连接与层归一化(Residual Connection & LayerNorm)

每个子模块(自注意力、FFN)前后都有:

  • 残差连接(Residual Connection)
    • Output=Sublayer(LayerNorm(x))+xOutput=Sublayer(LayerNorm(x))+x
    • 防止梯度消失,支持深层网络。
  • 层归一化(Layer Normalization)
    • 对每个样本的特征进行归一化,稳定训练过程。

三、现代大模型架构的演进与变体

虽然基础是Transformer,但现代大模型在架构上进行了大量优化和创新。

3.1 Decoder-Only 架构(GPT 系列)

  • 代表:GPT-3、GPT-4、Llama 3、Qwen、Mistral
  • 特点
    • 仅使用解码器堆栈。
    • 采用掩码自注意力,适合自回归生成。
    • 结构简单,易于扩展。
  • 优势:天然适合文本生成任务,是当前主流。

3.2 编-解码架构(Encoder-Decoder)

  • 代表:T5、BART
  • 特点
    • 同时使用编码器和解码器。
    • 解码器中还包含交叉注意力(Cross-Attention),让解码器关注编码器的输出。
  • 适用任务机器翻译、文本摘要等需要"理解-生成"的任务。

3.3 混合专家模型(MoE, Mixture of Experts)

  • 代表:Google GLaM、Mistral Mixtral 8x7B、DeepSeek-MoE
  • 核心思想
    • 在FFN层引入多个"专家"(Expert)网络。
    • 使用一个"门控网络"(Router)决定每个Token由哪个(或哪几个)专家处理。
  • 公式
    • MoE(x)=∑i=1Ngi(x)⋅Ei(x)MoE(x)=∑i=1Ngi(x)⋅Ei(x)
    • 其中 gi(x)gi(x) 是第 ii 个专家的门控权重,Ei(x)Ei(x) 是专家网络。
  • 优势
    • 激活参数少:每次只激活部分专家,推理成本低。
    • 总参数多:整体模型容量大,性能强。
  • 示例:Mixtral 8x7B 有8个专家,每次激活2个,等效于一个12B模型,但推理速度接近7B。

3.4 旋转位置编码(RoPE, Rotary Position Embedding)

  • 问题:传统绝对位置编码难以外推到更长序列。
  • 解决方案 :RoPE
    • 将位置信息通过旋转矩阵融入Q、K向量。
    • 公式:Qm=WQxmeimθ,Kn=WKxneinθQm=WQxmeimθ,Kn=WKxneinθ
  • 优势
    • 天然支持长序列外推(如从8K扩展到32K)。
    • 提升长距离依赖建模能力。
  • 应用:Llama 3、Qwen、ChatGLM 等广泛采用。

3.5 分组查询注意力(GQA, Grouped Query Attention)

  • 背景:KV Cache 占用大量显存,限制长上下文。
  • GQA 原理
    • 传统MHA:每个头有自己的K、V。
    • GQA:多个Query头共享一组K、V。
    • 介于MHA和MQA(Multi-Query Attention)之间。
  • 优势
    • 显著减少KV Cache内存占用。
    • 保持较好的生成质量。
  • 应用:Llama 3-70B、PaLM 2 采用GQA以支持长上下文。

四、典型大模型架构对比

模型 架构类型 关键技术 上下文长度 备注
GPT-3/4 Decoder-only MHA, RoPE (推测) 32K / 128K+ 闭源,性能顶尖
Llama 3 Decoder-only GQA, RoPE, SwiGLU 8K 开源标杆
Qwen Decoder-only RoPE, ALiBi (早期) 32K / 128K 支持超长上下文
Mixtral 8x7B MoE (Decoder-only) Sparse MoE, RoPE 32K 激活参数≈12B
ChatGLM3 Encoder-Decoder? GLM 架构, RoPE 32K 清华智谱

🔍 注:部分细节(如GPT-4)为社区推测,官方未完全公开。


五、总结:大模型神经网络架构的演进趋势

  1. 基础不变Transformer 解码器仍是绝对主流。
  2. 效率优先MoE、GQA、量化等技术大幅降低推理成本。
  3. 长上下文RoPE、滑动窗口、KV Cache 优化支持128K+ tokens。
  4. 开源驱动:Llama、Qwen 等开源模型推动架构创新快速传播。

结语

大模型的神经网络架构,本质上是一个基于 Transformer 的、不断进化的复杂系统 。从最初的纯 MHA + FFN,到如今的 MoE、GQA、RoPE 等高级组件,每一次架构创新都在追求 更高性能、更低成本、更强能力

理解这些架构细节,不仅能帮助我们更好地使用大模型,也为模型微调、推理优化、Agent 设计提供了坚实的底层支撑。

相关推荐
特拉熊4 小时前
23种设计模式之原型模式
后端·架构
文火冰糖的硅基工坊4 小时前
[人工智能-大模型-33]:模型层技术概览 - 大模型内部组成与层次调用关系
人工智能
Python算法实战4 小时前
平安大模型面试题:Self-Attention 原理与多头注意力设计
人工智能·算法·自然语言处理·大模型·面试题
安於宿命4 小时前
【machine learning】COVID-19 daily cases prediction
人工智能·机器学习
后端小肥肠5 小时前
【n8n入门系列】3 种方法搞定 n8n 生图!最多3步,小白也能学会的自动化教程
人工智能·openai·agent
Python算法实战5 小时前
腾讯送命题:手写多头注意力机制。。。
人工智能·算法·面试·大模型·强化学习
Rock_yzh5 小时前
AI学习日记——PyTorch深度学习快速入门:神经网络构建与训练实战
人工智能·pytorch·python·深度学习·神经网络·学习
razelan5 小时前
第一例:石头剪刀布的机器学习(xedu,示例15)
人工智能·机器学习
一条星星鱼6 小时前
从0到1:如何用统计学“看透”不同睡眠PSG数据集的差异(域偏差分析实战)
人工智能·深度学习·算法·概率论·归一化·睡眠psg