从0到1理解大语言模型:读《大语言模型:从理论到实践(第2版)》笔记

从0到1理解大语言模型:前3章精华速读

------读《大语言模型:从理论到实践(第2版)》笔记

如果你只有 30 分钟,又想快速搞懂"大语言模型到底怎么炼成的",这篇文章就是为你准备的。

我提炼了官方 400 页巨著的前 3 章,用中文讲人话,帮你把"概念 → 结构 → 数据"一次性串起来。


第1章 绪论:一句话说清大模型是什么

关键词 一句话解释
语言模型 给任何一段文本算概率的机器:越像人话,分越高。
参数量≥100 亿,阅读过 1 T 以上文本。
自监督 不用人工标注,直接拿下一词预测当"老师"。
三个阶段 ①预训练(学语言)→ ②指令微调(学听话)→ ③强化学习(学讨好)。

经验法则:模型越大、数据越多、算力越猛,效果越"玄学式"提升。OpenAI 管这叫 Scaling Laws:损失值随参数/数据/算力指数下降。


第2章 大模型骨架:Transformer 全家桶

2.1 底层积木:Transformer 结构

  • Embedding 把词变向量;Positional Encoding 给位置打坐标。
  • Self-Attention 让每个词"偷窥"上下文,距离不再是问题。
  • FFN 两层全连接做非线性变换;残差 + LayerNorm 保稳定。
  • Encoder vs Decoder 只在机器翻译用,GPT 系列只用 Decoder。

2.2 GPT 系列如何炼成

  1. 预训练:用 45 TB 网页 → 570 GB 干净文本,做"下一词预测"。
  2. 微调:把下游任务化成"填空题",用几千~几万条标注即可。
  3. 提示(Prompting):不给权重,只给示范,模型也能举一反三。

2.3 LLaMA 做了哪些小改进

  • 前置 RMSNorm → 训练更稳。
  • SwiGLU 激活 → 比 ReLU 更丝滑。
  • RoPE 旋转位置编码 → 长度外推更友好。
  • 多查询/FlashAttention/MLA → 省显存、提速度。

一句话总结:LLaMA = GPT 结构 + 工程优化 + 开源,让平民也能玩 70 B 模型。


第3章 数据:为什么"Garbage in, garbage out"在大模型里被放大 100 倍

3.1 数据来源全景图

类型 占比 作用
通用网页 60 % 以上 学说话、学世界知识
书籍/百科 ~5 % 长文本连贯性、事实性
GitHub/论文/专利 5--10 % 代码、科学推理
多语言 5--20 % 跨语言对齐
领域语料(金融、医疗...) 1--5 % 下游任务"外挂知识"

经验:高质量小数据 > 低质量大数据。DeepMind 的 Chinchilla 法则:参数和词元 1:20 最划算。

3.2 数据炼金术:把 1 PB 原始网页变 100 GB 真·黄金

  1. 质量过滤
    • 规则法:长度、符号比、困惑度。
    • 模型法:用一个小模型给每段文本打分,砍掉低分。
  2. 去重
    • 句子级 50 字符以上重复直接剪。
    • 文档级 MinHash + URL 去重,防"Ctrl+C/V"污染。
  3. 隐私脱敏:正则 + NER,把身份证、邮箱、地址全抹掉。
  4. 词元化
    • BPE/WordPiece/ULM → 解决 OOV,中文 2~3 字节拼一字。
    • 字节级 BPE 保证多语言无死角。

3.3 数据影响实验

  • 规模:LLaMA 从 1 T 加到 15 T token,常识基准再涨 5--10 分。
  • 质量:同一量级,清洗后 vs 原始 CommonCrawl,下游任务提升 20 %。
  • 多样性:Gopher 实验发现,C4+MassiveWeb+Books+News 的黄金配比 ≈ 1:5:3:1,单一来源越纯越差。
  • 时效性:用 2019 年的新闻训的模型,在 2023 年测试集上掉 3--5 分。

一张图带走前 3 章核心

复制代码
            第1章                第2章                第3章
   概念 ---------------> 结构 ---------------> 数据
     ↑              ↑              ↑
Scaling Laws  →  Transformer   →  Chinchilla
     ↓              ↓              ↓
   越大越好        越稳越快       越干净越好

彩蛋:读完就能回答的 3 个面试高频题

  1. 为什么 LLaMA 3 用 15 T token 训练,而 GPT-3 只用了 0.3 T?

    → Chinchilla 定律:参数 70 B 时,最优 token 数 ≈ 1.4 T;405 B 时,≈ 15 T。

  2. FlashAttention 到底省了什么?

    → 省显存:把 O(N²) 的 Attention 矩阵拆块放 SRAM,算完即丢;速度反而更快(重新计算 < 访存延迟)。

  3. 数据清洗最大的坑是什么?

    → 测试集泄露。CommonCrawl 里混了 GLUE、MMLU 的题,不剔除直接"刷榜"=作弊。

相关推荐
NAGNIP11 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab13 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab13 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP16 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年16 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼17 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS17 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区18 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈18 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang18 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx