大语言模型的前世今生

这是一个从传统神经网络 → TransformerBERT大语言模型(LLM) 的技术演化过程。

我下面按时间线讲清楚它们是怎么发现与发展起来的,以及每一步技术是如何铺垫下一步的。


🧭 一、背景:从 RNN 到 Attention 的探索历程

🔹 1. 早期的序列模型:RNN / LSTM(2013--2015)

  • **问题背景:**句子是序列数据,传统神经网络 (MLP) 无法建模顺序。
  • RNN (Recurrent Neural Network) → 让模型能按顺序读单词。
  • LSTM / GRU → 解决了传统 RNN 的"梯度消失"和"长期依赖"问题。
  • 局限:
    1. 训练难并行。
    2. 长文本依赖仍难学习。
    3. "一个字一个字读"的方式效率低。

⚡ 二、2017 年:Transformer 的提出(关键里程碑)

🔹 出处

  • 论文:《Attention Is All You Need》(Vaswani et al., Google, 2017)
  • 创新点:完全抛弃循环结构,只用 注意力机制(Self-Attention)

🔹 核心思想

每个词都可以直接关注到句子中所有其他词的位置,用加权的方式捕捉关联。

结构:

  • 编码器(Encoder):理解输入(如翻译源句)
  • 解码器(Decoder):生成输出(目标句)
  • 每层由 "多头自注意力 (Multi-Head Self-Attention)" + "前馈网络 (Feed-Forward)" 组成。

🔹 优点

特性 说明
并行计算 不再像 RNN 一步步读,而是整句并行。
长距离建模 注意力机制能直接捕捉远距离词关系。
泛化能力强 结构简单但表示力强。

🧩 三、2018 年:BERT 的出现(基于 Transformer 的预训练革命)

🔹 出处

  • 论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》(Devlin et al., Google, 2018)

🔹 核心创新

将 Transformer Encoder 拿来直接在大语料上"自我监督预训练",再微调(Fine-tune)到具体任务。

  • "双向" Transformer Encoder:不同于 GPT 的单向生成。
  • 预训练任务:
    1. Masked Language Modeling (MLM) → 随机遮蔽词预测。
    2. Next Sentence Prediction (NSP) → 判断两句是否相邻。

🔹 意义

  • BERT 实现了 通用语言理解表示:一次大规模训练 → 多任务迁移。
  • NLP 性能全面超越旧方法(LSTM、CNN)。
  • 启发了后续大量模型(RoBERTa、ALBERT、ERNIE 等)。

🚀 四、2018--2020:GPT 系列与生成模型崛起

🔹 GPT (Generative Pre-Training Transformer)

  • OpenAI 在 2018 年提出,和 BERT 同期。
  • 使用 Transformer Decoder 结构,专注"自回归"生成。
  • GPT2(2019)GPT3(2020) 持续扩大规模(参数从亿级→千亿级)。

🔹 技术路径分化:

模型类型 核心任务 代表
Encoder-only 理解任务(分类/句对) BERT、RoBERTa
Decoder-only 生成任务(对话、写作) GPT 系列
Encoder‑Decoder 翻译、摘要 T5、BART

🌏 五、2020--2023:大语言模型(LLM)时代

🔹 特点

  • 数据量:从几十GB → 数TB网络语料
  • 参数规模:从 1 亿 → 万亿级
  • 训练框架:使用分布式 Transformer 架构
  • 模型例子
    • GPT‑3(2020, 175B 参数)
    • PaLM、Gopher、Megatron、ERNIE、文心、GLM、ChatGPT 等

🔹 新阶段理念

  1. Scaling Law(规模定律):模型越大 + 数据越多 → 表现越好(直到算力瓶颈)。
  2. 微调范式变化:
    • Instruct Tuning(指令微调)
    • RLHF(人类反馈强化学习) → 调教模型符合人类偏好。
  3. 能力突破:
    • 少样本 / 零样本学习 (Few/Zero-Shot)
    • 复杂推理与对话生成
    • 多模态(文、图、语音)

🧩 六、总结:技术演进路径示意

复制代码
RNN (1990s)
   │
   ├─ LSTM / GRU (2014)
   │
   ├─ Attention (2015: Bahdanau et al.)
   │
   └─ Transformer (2017: Vaswani et al.)
          │
          ├─ BERT (2018, Encoder)
          ├─ GPT (2018, Decoder)
          ├─ T5 / BART (2019, Encoder-Decoder)
          └─ LLMs (2020→ , GPT-3, ChatGPT, PaLM, etc.)

✅ 关键词总结

阶段 关键技术 代表模型 主要解决问题
RNN / LSTM 循环网络 Seq2Seq 建模序列依赖
Attention 加权机制 Seq2Seq + Attention 建模长程依赖
Transformer 自注意力 Transformer 并行、性能高
BERT 预训练 + 微调 BERT, RoBERTa 通用语言理解
GPT / LLM 大规模自回归 GPT, ChatGPT, GLM 通用生成与推理

相关推荐
imbackneverdie18 小时前
Science最新文章:大型语言模型时代的科学生产
人工智能·语言模型·自然语言处理·aigc·ai写作
P-ShineBeam18 小时前
八卡A100服务器坏卡引发 CUDA initialization: cudaGetDeviceCount()异常
运维·服务器·人工智能·语言模型
真上帝的左手18 小时前
26. AI-框架工具-LangChain & LangGraph
人工智能·langchain
沛沛老爹18 小时前
Web开发者进阶AI:Agent Skills-深度迭代处理架构——从递归函数到智能决策引擎
java·开发语言·人工智能·科技·架构·企业开发·发展趋势
赫尔·普莱蒂科萨·帕塔18 小时前
医疗新纪元的开启
人工智能·chatgpt
m0_6038887118 小时前
Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models
人工智能·算法·ai·语言模型·论文速览
飞凌嵌入式18 小时前
解析一下面向教育领域的RV1126B\RK3506B\RK3576开发板
linux·人工智能
congming202018 小时前
AI赋能软考高项论文:140天分层突破法(适配新大纲绩效域)
人工智能
萤丰信息18 小时前
开启园区“生命体”时代——智慧园区系统,定义未来的办公与生活
java·大数据·运维·数据库·人工智能·生活·智慧园区
Toky丶18 小时前
【文献阅读】Pretraining Large Language Models with NVFP4
人工智能·语言模型·自然语言处理