大语言模型的前世今生

这是一个从传统神经网络 → TransformerBERT大语言模型(LLM) 的技术演化过程。

我下面按时间线讲清楚它们是怎么发现与发展起来的,以及每一步技术是如何铺垫下一步的。


🧭 一、背景:从 RNN 到 Attention 的探索历程

🔹 1. 早期的序列模型:RNN / LSTM(2013--2015)

  • **问题背景:**句子是序列数据,传统神经网络 (MLP) 无法建模顺序。
  • RNN (Recurrent Neural Network) → 让模型能按顺序读单词。
  • LSTM / GRU → 解决了传统 RNN 的"梯度消失"和"长期依赖"问题。
  • 局限:
    1. 训练难并行。
    2. 长文本依赖仍难学习。
    3. "一个字一个字读"的方式效率低。

⚡ 二、2017 年:Transformer 的提出(关键里程碑)

🔹 出处

  • 论文:《Attention Is All You Need》(Vaswani et al., Google, 2017)
  • 创新点:完全抛弃循环结构,只用 注意力机制(Self-Attention)

🔹 核心思想

每个词都可以直接关注到句子中所有其他词的位置,用加权的方式捕捉关联。

结构:

  • 编码器(Encoder):理解输入(如翻译源句)
  • 解码器(Decoder):生成输出(目标句)
  • 每层由 "多头自注意力 (Multi-Head Self-Attention)" + "前馈网络 (Feed-Forward)" 组成。

🔹 优点

特性 说明
并行计算 不再像 RNN 一步步读,而是整句并行。
长距离建模 注意力机制能直接捕捉远距离词关系。
泛化能力强 结构简单但表示力强。

🧩 三、2018 年:BERT 的出现(基于 Transformer 的预训练革命)

🔹 出处

  • 论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》(Devlin et al., Google, 2018)

🔹 核心创新

将 Transformer Encoder 拿来直接在大语料上"自我监督预训练",再微调(Fine-tune)到具体任务。

  • "双向" Transformer Encoder:不同于 GPT 的单向生成。
  • 预训练任务:
    1. Masked Language Modeling (MLM) → 随机遮蔽词预测。
    2. Next Sentence Prediction (NSP) → 判断两句是否相邻。

🔹 意义

  • BERT 实现了 通用语言理解表示:一次大规模训练 → 多任务迁移。
  • NLP 性能全面超越旧方法(LSTM、CNN)。
  • 启发了后续大量模型(RoBERTa、ALBERT、ERNIE 等)。

🚀 四、2018--2020:GPT 系列与生成模型崛起

🔹 GPT (Generative Pre-Training Transformer)

  • OpenAI 在 2018 年提出,和 BERT 同期。
  • 使用 Transformer Decoder 结构,专注"自回归"生成。
  • GPT2(2019)GPT3(2020) 持续扩大规模(参数从亿级→千亿级)。

🔹 技术路径分化:

模型类型 核心任务 代表
Encoder-only 理解任务(分类/句对) BERT、RoBERTa
Decoder-only 生成任务(对话、写作) GPT 系列
Encoder‑Decoder 翻译、摘要 T5、BART

🌏 五、2020--2023:大语言模型(LLM)时代

🔹 特点

  • 数据量:从几十GB → 数TB网络语料
  • 参数规模:从 1 亿 → 万亿级
  • 训练框架:使用分布式 Transformer 架构
  • 模型例子
    • GPT‑3(2020, 175B 参数)
    • PaLM、Gopher、Megatron、ERNIE、文心、GLM、ChatGPT 等

🔹 新阶段理念

  1. Scaling Law(规模定律):模型越大 + 数据越多 → 表现越好(直到算力瓶颈)。
  2. 微调范式变化:
    • Instruct Tuning(指令微调)
    • RLHF(人类反馈强化学习) → 调教模型符合人类偏好。
  3. 能力突破:
    • 少样本 / 零样本学习 (Few/Zero-Shot)
    • 复杂推理与对话生成
    • 多模态(文、图、语音)

🧩 六、总结:技术演进路径示意

复制代码
RNN (1990s)
   │
   ├─ LSTM / GRU (2014)
   │
   ├─ Attention (2015: Bahdanau et al.)
   │
   └─ Transformer (2017: Vaswani et al.)
          │
          ├─ BERT (2018, Encoder)
          ├─ GPT (2018, Decoder)
          ├─ T5 / BART (2019, Encoder-Decoder)
          └─ LLMs (2020→ , GPT-3, ChatGPT, PaLM, etc.)

✅ 关键词总结

阶段 关键技术 代表模型 主要解决问题
RNN / LSTM 循环网络 Seq2Seq 建模序列依赖
Attention 加权机制 Seq2Seq + Attention 建模长程依赖
Transformer 自注意力 Transformer 并行、性能高
BERT 预训练 + 微调 BERT, RoBERTa 通用语言理解
GPT / LLM 大规模自回归 GPT, ChatGPT, GLM 通用生成与推理

相关推荐
Elastic 中国社区官方博客17 小时前
Elasticsearch:使用 Agent Builder 的 A2A 实现 - 开发者的圣诞颂歌
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
chools17 小时前
【AI超级智能体】快速搞懂工具调用Tool Calling 和 MCP协议
java·人工智能·学习·ai
郝学胜-神的一滴18 小时前
深度学习必学:PyTorch 神经网络参数初始化全攻略(原理 + 代码 + 选择指南)
人工智能·pytorch·python·深度学习·神经网络·机器学习
leobertlan18 小时前
好玩系列:用20元实现快乐保存器
android·人工智能·算法
笨笨饿18 小时前
#58_万能函数的构造方法:ReLU函数
数据结构·人工智能·stm32·单片机·硬件工程·学习方法
jr-create(•̀⌄•́)18 小时前
从零开始:手动实现神经网络识别手写数字(完整代码讲解)
人工智能·深度学习·神经网络
冬奇Lab18 小时前
一天一个开源项目(第78篇):MiroFish - 用群体智能引擎预测未来
人工智能·开源·资讯
冬奇Lab18 小时前
你的 Skill 真的好用吗?来自OpenAI的 Eval 系统化验证 Agent 技能方法论
人工智能·openai
数智工坊18 小时前
Transformer 全套逻辑:公式推导 + 原理解剖 + 逐行精读 - 划时代封神之作!
人工智能·深度学习·transformer
GreenTea19 小时前
AI 时代,工程师的不可替代性在哪里
前端·人工智能·后端