大语言模型的前世今生

这是一个从传统神经网络 → TransformerBERT大语言模型(LLM) 的技术演化过程。

我下面按时间线讲清楚它们是怎么发现与发展起来的,以及每一步技术是如何铺垫下一步的。


🧭 一、背景:从 RNN 到 Attention 的探索历程

🔹 1. 早期的序列模型:RNN / LSTM(2013--2015)

  • **问题背景:**句子是序列数据,传统神经网络 (MLP) 无法建模顺序。
  • RNN (Recurrent Neural Network) → 让模型能按顺序读单词。
  • LSTM / GRU → 解决了传统 RNN 的"梯度消失"和"长期依赖"问题。
  • 局限:
    1. 训练难并行。
    2. 长文本依赖仍难学习。
    3. "一个字一个字读"的方式效率低。

⚡ 二、2017 年:Transformer 的提出(关键里程碑)

🔹 出处

  • 论文:《Attention Is All You Need》(Vaswani et al., Google, 2017)
  • 创新点:完全抛弃循环结构,只用 注意力机制(Self-Attention)

🔹 核心思想

每个词都可以直接关注到句子中所有其他词的位置,用加权的方式捕捉关联。

结构:

  • 编码器(Encoder):理解输入(如翻译源句)
  • 解码器(Decoder):生成输出(目标句)
  • 每层由 "多头自注意力 (Multi-Head Self-Attention)" + "前馈网络 (Feed-Forward)" 组成。

🔹 优点

特性 说明
并行计算 不再像 RNN 一步步读,而是整句并行。
长距离建模 注意力机制能直接捕捉远距离词关系。
泛化能力强 结构简单但表示力强。

🧩 三、2018 年:BERT 的出现(基于 Transformer 的预训练革命)

🔹 出处

  • 论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》(Devlin et al., Google, 2018)

🔹 核心创新

将 Transformer Encoder 拿来直接在大语料上"自我监督预训练",再微调(Fine-tune)到具体任务。

  • "双向" Transformer Encoder:不同于 GPT 的单向生成。
  • 预训练任务:
    1. Masked Language Modeling (MLM) → 随机遮蔽词预测。
    2. Next Sentence Prediction (NSP) → 判断两句是否相邻。

🔹 意义

  • BERT 实现了 通用语言理解表示:一次大规模训练 → 多任务迁移。
  • NLP 性能全面超越旧方法(LSTM、CNN)。
  • 启发了后续大量模型(RoBERTa、ALBERT、ERNIE 等)。

🚀 四、2018--2020:GPT 系列与生成模型崛起

🔹 GPT (Generative Pre-Training Transformer)

  • OpenAI 在 2018 年提出,和 BERT 同期。
  • 使用 Transformer Decoder 结构,专注"自回归"生成。
  • GPT2(2019)GPT3(2020) 持续扩大规模(参数从亿级→千亿级)。

🔹 技术路径分化:

模型类型 核心任务 代表
Encoder-only 理解任务(分类/句对) BERT、RoBERTa
Decoder-only 生成任务(对话、写作) GPT 系列
Encoder‑Decoder 翻译、摘要 T5、BART

🌏 五、2020--2023:大语言模型(LLM)时代

🔹 特点

  • 数据量:从几十GB → 数TB网络语料
  • 参数规模:从 1 亿 → 万亿级
  • 训练框架:使用分布式 Transformer 架构
  • 模型例子
    • GPT‑3(2020, 175B 参数)
    • PaLM、Gopher、Megatron、ERNIE、文心、GLM、ChatGPT 等

🔹 新阶段理念

  1. Scaling Law(规模定律):模型越大 + 数据越多 → 表现越好(直到算力瓶颈)。
  2. 微调范式变化:
    • Instruct Tuning(指令微调)
    • RLHF(人类反馈强化学习) → 调教模型符合人类偏好。
  3. 能力突破:
    • 少样本 / 零样本学习 (Few/Zero-Shot)
    • 复杂推理与对话生成
    • 多模态(文、图、语音)

🧩 六、总结:技术演进路径示意

复制代码
RNN (1990s)
   │
   ├─ LSTM / GRU (2014)
   │
   ├─ Attention (2015: Bahdanau et al.)
   │
   └─ Transformer (2017: Vaswani et al.)
          │
          ├─ BERT (2018, Encoder)
          ├─ GPT (2018, Decoder)
          ├─ T5 / BART (2019, Encoder-Decoder)
          └─ LLMs (2020→ , GPT-3, ChatGPT, PaLM, etc.)

✅ 关键词总结

阶段 关键技术 代表模型 主要解决问题
RNN / LSTM 循环网络 Seq2Seq 建模序列依赖
Attention 加权机制 Seq2Seq + Attention 建模长程依赖
Transformer 自注意力 Transformer 并行、性能高
BERT 预训练 + 微调 BERT, RoBERTa 通用语言理解
GPT / LLM 大规模自回归 GPT, ChatGPT, GLM 通用生成与推理

相关推荐
杀生丸学AI几秒前
【物理重建】PPISP :辐射场重建中光度变化的物理合理补偿与控制
人工智能·大模型·aigc·三维重建·世界模型·逆渲染
vlln3 分钟前
【论文速读】递归语言模型 (Recursive Language Models): 将上下文作为环境的推理范式
人工智能·语言模型·自然语言处理
春日见11 分钟前
如何避免代码冲突,拉取分支
linux·人工智能·算法·机器学习·自动驾驶
龙腾AI白云15 分钟前
基于Transformer的人工智能模型搭建与fine-tuning
人工智能·数据挖掘
人工智能培训40 分钟前
大模型训练数据版权与知识产权问题的解决路径
人工智能·大模型·数字化转型·大模型算法·大模型应用工程师
无垠的广袤1 小时前
【VisionFive 2 Lite 单板计算机】边缘AI视觉应用部署:缺陷检测
linux·人工智能·python·opencv·开发板
Duang007_1 小时前
【LeetCodeHot100 超详细Agent启发版本】字母异位词分组 (Group Anagrams)
开发语言·javascript·人工智能·python
phoenix@Capricornus1 小时前
CNN中卷积输出尺寸的计算
人工智能·神经网络·cnn
创客匠人老蒋1 小时前
从数据库到智能体:教育企业如何构建自己的“数字大脑”?
大数据·人工智能·创客匠人
GJGCY1 小时前
技术解析|中国智能体4类路径深度拆解,这类底座架构优势凸显
人工智能·经验分享·ai·agent·智能体·数字员工