这是一个从传统神经网络 → Transformer → BERT → 大语言模型(LLM) 的技术演化过程。
我下面按时间线讲清楚它们是怎么发现与发展起来的,以及每一步技术是如何铺垫下一步的。
🧭 一、背景:从 RNN 到 Attention 的探索历程
🔹 1. 早期的序列模型:RNN / LSTM(2013--2015)
- **问题背景:**句子是序列数据,传统神经网络 (MLP) 无法建模顺序。
- RNN (Recurrent Neural Network) → 让模型能按顺序读单词。
- LSTM / GRU → 解决了传统 RNN 的"梯度消失"和"长期依赖"问题。
- 局限:
- 训练难并行。
- 长文本依赖仍难学习。
- "一个字一个字读"的方式效率低。
⚡ 二、2017 年:Transformer 的提出(关键里程碑)
🔹 出处
- 论文:《Attention Is All You Need》(Vaswani et al., Google, 2017)
- 创新点:完全抛弃循环结构,只用 注意力机制(Self-Attention)。
🔹 核心思想
每个词都可以直接关注到句子中所有其他词的位置,用加权的方式捕捉关联。
结构:
- 编码器(Encoder):理解输入(如翻译源句)
- 解码器(Decoder):生成输出(目标句)
- 每层由 "多头自注意力 (Multi-Head Self-Attention)" + "前馈网络 (Feed-Forward)" 组成。
🔹 优点
| 特性 | 说明 |
|---|---|
| 并行计算 | 不再像 RNN 一步步读,而是整句并行。 |
| 长距离建模 | 注意力机制能直接捕捉远距离词关系。 |
| 泛化能力强 | 结构简单但表示力强。 |
🧩 三、2018 年:BERT 的出现(基于 Transformer 的预训练革命)
🔹 出处
- 论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》(Devlin et al., Google, 2018)
🔹 核心创新
将 Transformer Encoder 拿来直接在大语料上"自我监督预训练",再微调(Fine-tune)到具体任务。
- "双向" Transformer Encoder:不同于 GPT 的单向生成。
- 预训练任务:
- Masked Language Modeling (MLM) → 随机遮蔽词预测。
- Next Sentence Prediction (NSP) → 判断两句是否相邻。
🔹 意义
- BERT 实现了 通用语言理解表示:一次大规模训练 → 多任务迁移。
- NLP 性能全面超越旧方法(LSTM、CNN)。
- 启发了后续大量模型(RoBERTa、ALBERT、ERNIE 等)。
🚀 四、2018--2020:GPT 系列与生成模型崛起
🔹 GPT (Generative Pre-Training Transformer)
- OpenAI 在 2018 年提出,和 BERT 同期。
- 使用 Transformer Decoder 结构,专注"自回归"生成。
- GPT2(2019) 、GPT3(2020) 持续扩大规模(参数从亿级→千亿级)。
🔹 技术路径分化:
| 模型类型 | 核心任务 | 代表 |
|---|---|---|
| Encoder-only | 理解任务(分类/句对) | BERT、RoBERTa |
| Decoder-only | 生成任务(对话、写作) | GPT 系列 |
| Encoder‑Decoder | 翻译、摘要 | T5、BART |
🌏 五、2020--2023:大语言模型(LLM)时代
🔹 特点
- 数据量:从几十GB → 数TB网络语料
- 参数规模:从 1 亿 → 万亿级
- 训练框架:使用分布式 Transformer 架构
- 模型例子 :
- GPT‑3(2020, 175B 参数)
- PaLM、Gopher、Megatron、ERNIE、文心、GLM、ChatGPT 等
🔹 新阶段理念
- Scaling Law(规模定律):模型越大 + 数据越多 → 表现越好(直到算力瓶颈)。
- 微调范式变化:
- Instruct Tuning(指令微调)
- RLHF(人类反馈强化学习) → 调教模型符合人类偏好。
- 能力突破:
- 少样本 / 零样本学习 (Few/Zero-Shot)
- 复杂推理与对话生成
- 多模态(文、图、语音)
🧩 六、总结:技术演进路径示意
RNN (1990s)
│
├─ LSTM / GRU (2014)
│
├─ Attention (2015: Bahdanau et al.)
│
└─ Transformer (2017: Vaswani et al.)
│
├─ BERT (2018, Encoder)
├─ GPT (2018, Decoder)
├─ T5 / BART (2019, Encoder-Decoder)
└─ LLMs (2020→ , GPT-3, ChatGPT, PaLM, etc.)
✅ 关键词总结
| 阶段 | 关键技术 | 代表模型 | 主要解决问题 |
|---|---|---|---|
| RNN / LSTM | 循环网络 | Seq2Seq | 建模序列依赖 |
| Attention | 加权机制 | Seq2Seq + Attention | 建模长程依赖 |
| Transformer | 自注意力 | Transformer | 并行、性能高 |
| BERT | 预训练 + 微调 | BERT, RoBERTa | 通用语言理解 |
| GPT / LLM | 大规模自回归 | GPT, ChatGPT, GLM | 通用生成与推理 |