Transformer 核心架构
Transformer由Vaswani等人在2017年的论文《Attention Is All You Need》中提出,彻底改变了深度学习领域。
整体结构
输入 → [编码器 (Encoder) × N] → [解码器 (Decoder) × N] → 输出
核心组件
1. 自注意力机制 (Self-Attention)
- 核心思想:计算序列中每个位置与其他所有位置的关联权重
- Query-Key-Value:将输入映射为Q、K、V三个矩阵
- 注意力分数 :
Attention(Q,K,V) = softmax(QK^T/√d_k)V
2. 多头注意力 (Multi-Head Attention)
- 并行使用多组注意力机制
- 不同头关注不同的特征子空间
- 增强模型表达能力
3. 位置编码 (Positional Encoding)
- 由于自注意力是位置无关的,需要注入位置信息
- 使用正弦/余弦函数或学习的位置嵌入
4. 前馈神经网络 (Feed Forward Network)
- 每个位置独立应用的全连接层
- 通常使用GELU或ReLU激活函数
5. 层归一化 & 残差连接
- Layer Normalization稳定训练
- Residual Connection缓解梯度消失
编码器 vs 解码器
| 组件 | 编码器 | 解码器 |
|---|---|---|
| 自注意力 | 双向(看全部) | 因果/掩码(只看过去) |
| 交叉注意力 | 无 | 有(关注编码器输出) |
| 用途 | 理解输入 | 生成输出 |
为什么Transformer如此成功?
优势
- 并行计算:不像RNN需要顺序处理
- 长距离依赖:直接建模任意距离的关系
- 可扩展性:模型规模可大幅扩展(GPT-3/4、Claude等)
- 通用性:适用于NLP、CV、语音、多模态等
演进路线
2017: Transformer (原始论文)
↓
2018: BERT (编码器,双向,理解任务)
GPT-1 (解码器,生成任务)
↓
2019: GPT-2 / RoBERTa / XLNet
↓
2020: GPT-3 (175B参数,涌现能力)
↓
2022+: ChatGPT / GPT-4 / Claude / Gemini (指令微调+RLHF)
典型变体
| 模型 | 架构 | 特点 |
|---|---|---|
| BERT | 仅Encoder | 双向编码,适合理解任务 |
| GPT系列 | 仅Decoder | 自回归生成,适合文本生成 |
| T5 | Encoder-Decoder | 统一text-to-text框架 |
| Vision Transformer | 适配图像 | 将图像分块作为序列处理 |
计算复杂度
- 自注意力: O(n² × d) --- 序列长度的平方是主要瓶颈
- 这也是长上下文研究(如线性注意力、状态空间模型)的动机
关键洞察
"Attention Is All You Need" --- 论文标题本身就是核心洞见:不需要循环或卷积,仅靠注意力机制就能构建强大的序列模型。
Transformer的成功催生了**大语言模型(LLM)**时代,ChatGPT、Claude等对话系统都基于此架构。
您想深入了解哪个方面?比如注意力机制的数学细节、具体实现,或者某个变体模型?