大语言模型的前世今生

这是一个从传统神经网络 → TransformerBERT大语言模型(LLM) 的技术演化过程。

我下面按时间线讲清楚它们是怎么发现与发展起来的,以及每一步技术是如何铺垫下一步的。


🧭 一、背景:从 RNN 到 Attention 的探索历程

🔹 1. 早期的序列模型:RNN / LSTM(2013--2015)

  • **问题背景:**句子是序列数据,传统神经网络 (MLP) 无法建模顺序。
  • RNN (Recurrent Neural Network) → 让模型能按顺序读单词。
  • LSTM / GRU → 解决了传统 RNN 的"梯度消失"和"长期依赖"问题。
  • 局限:
    1. 训练难并行。
    2. 长文本依赖仍难学习。
    3. "一个字一个字读"的方式效率低。

⚡ 二、2017 年:Transformer 的提出(关键里程碑)

🔹 出处

  • 论文:《Attention Is All You Need》(Vaswani et al., Google, 2017)
  • 创新点:完全抛弃循环结构,只用 注意力机制(Self-Attention)

🔹 核心思想

每个词都可以直接关注到句子中所有其他词的位置,用加权的方式捕捉关联。

结构:

  • 编码器(Encoder):理解输入(如翻译源句)
  • 解码器(Decoder):生成输出(目标句)
  • 每层由 "多头自注意力 (Multi-Head Self-Attention)" + "前馈网络 (Feed-Forward)" 组成。

🔹 优点

特性 说明
并行计算 不再像 RNN 一步步读,而是整句并行。
长距离建模 注意力机制能直接捕捉远距离词关系。
泛化能力强 结构简单但表示力强。

🧩 三、2018 年:BERT 的出现(基于 Transformer 的预训练革命)

🔹 出处

  • 论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》(Devlin et al., Google, 2018)

🔹 核心创新

将 Transformer Encoder 拿来直接在大语料上"自我监督预训练",再微调(Fine-tune)到具体任务。

  • "双向" Transformer Encoder:不同于 GPT 的单向生成。
  • 预训练任务:
    1. Masked Language Modeling (MLM) → 随机遮蔽词预测。
    2. Next Sentence Prediction (NSP) → 判断两句是否相邻。

🔹 意义

  • BERT 实现了 通用语言理解表示:一次大规模训练 → 多任务迁移。
  • NLP 性能全面超越旧方法(LSTM、CNN)。
  • 启发了后续大量模型(RoBERTa、ALBERT、ERNIE 等)。

🚀 四、2018--2020:GPT 系列与生成模型崛起

🔹 GPT (Generative Pre-Training Transformer)

  • OpenAI 在 2018 年提出,和 BERT 同期。
  • 使用 Transformer Decoder 结构,专注"自回归"生成。
  • GPT2(2019)GPT3(2020) 持续扩大规模(参数从亿级→千亿级)。

🔹 技术路径分化:

模型类型 核心任务 代表
Encoder-only 理解任务(分类/句对) BERT、RoBERTa
Decoder-only 生成任务(对话、写作) GPT 系列
Encoder‑Decoder 翻译、摘要 T5、BART

🌏 五、2020--2023:大语言模型(LLM)时代

🔹 特点

  • 数据量:从几十GB → 数TB网络语料
  • 参数规模:从 1 亿 → 万亿级
  • 训练框架:使用分布式 Transformer 架构
  • 模型例子
    • GPT‑3(2020, 175B 参数)
    • PaLM、Gopher、Megatron、ERNIE、文心、GLM、ChatGPT 等

🔹 新阶段理念

  1. Scaling Law(规模定律):模型越大 + 数据越多 → 表现越好(直到算力瓶颈)。
  2. 微调范式变化:
    • Instruct Tuning(指令微调)
    • RLHF(人类反馈强化学习) → 调教模型符合人类偏好。
  3. 能力突破:
    • 少样本 / 零样本学习 (Few/Zero-Shot)
    • 复杂推理与对话生成
    • 多模态(文、图、语音)

🧩 六、总结:技术演进路径示意

复制代码
RNN (1990s)
   │
   ├─ LSTM / GRU (2014)
   │
   ├─ Attention (2015: Bahdanau et al.)
   │
   └─ Transformer (2017: Vaswani et al.)
          │
          ├─ BERT (2018, Encoder)
          ├─ GPT (2018, Decoder)
          ├─ T5 / BART (2019, Encoder-Decoder)
          └─ LLMs (2020→ , GPT-3, ChatGPT, PaLM, etc.)

✅ 关键词总结

阶段 关键技术 代表模型 主要解决问题
RNN / LSTM 循环网络 Seq2Seq 建模序列依赖
Attention 加权机制 Seq2Seq + Attention 建模长程依赖
Transformer 自注意力 Transformer 并行、性能高
BERT 预训练 + 微调 BERT, RoBERTa 通用语言理解
GPT / LLM 大规模自回归 GPT, ChatGPT, GLM 通用生成与推理

相关推荐
海蓝可知天湛4 小时前
Agent&IELTS雅思口语专属语料库
人工智能·github·rag·ielts·skills
随身数智备忘录4 小时前
什么是设备管理体系?设备管理体系包含哪些核心模块?
网络·数据库·人工智能
OpenBayes贝式计算4 小时前
涵盖 OCR 与多轮对话:1.3B 端侧多模态模型 MiniCPM-V-4.6 正式发布;百万级智能体数据集 AgentTrove 开源!包含代码修复及数学求解
人工智能
189228048614 小时前
NY352固态MT29F32T08GWLBHD6-24QJ:B
大数据·服务器·人工智能·科技·缓存
南屹川4 小时前
【数据库】PostgreSQL实战:从基础到高级特性
人工智能
zhangxingchao4 小时前
多 Agent 架构到底怎么选?从 Claude Agent Teams、Cognition/Devin 到工程落地原则
前端·人工智能·后端
不开大的凯20775 小时前
麦当秀AiPPT战略转向:从SaaS订阅迈向Token经济,AI办公定价模式迎来新探索
大数据·人工智能
Mr数据杨5 小时前
【CanMV K210】显示交互 LCD1602 I2C 通信与滚动文本显示
人工智能·交互·硬件开发·canmv k210
IT_陈寒5 小时前
SpringBoot那个自动配置的坑,害我排查到凌晨三点
前端·人工智能·后端
常威正在打来福5 小时前
不想让你的网页长得像「AI 做的」?试试这个
人工智能·aigc·ai编程