简单学习 --＞ llm是怎么训练出来的?

进入预训练前的步骤 ------ 分词（Tokenization）

概念模型看不懂人类的"字符串"，它只能处理数字。在 6.1 预训练开始前，必须先通过分词器（Tokenizer）将文本切分成 Token 并映射为 ID。Token 是 LLM 处理信息的最小单位。

简单示例 一个英文单词可能是一个 Token，也可能被切成多个；一个汉字通常是一个或多个 Token。

输入: "LLM是人工智能"
Token 切分: ["LL", "M", "是", "人工", "智能"]
ID 映射: [452, 89, 1024, 5566, 8899]

原理图解

复制代码

+-------------------+       +-----------------+       +-------------------+
| 原始文本 (Text)   |  ---> | 分词器 (Tokenizer)|  ---> | 向量化 (Embedding)|
| "太阳从东方升起"  |       | 查表映射为数字ID  |       | 映射为高维稠密向量|
+-------------------+       +-----------------+       +-------------------+
                               [56, 102, 988...]      [0.23, -1.2, 0.8...]
                                                             ↓
                                                      进入 Transformer\

预训练（Pre-training）------ 自监督学习

预训练是大规模无标注文本语料库上，利用自监督学习对深度神经网络参数进行初始化训练的过程。其本质是让模型"通读群书，积累常识"，在万亿级 Token 的文本上执行预测下一个词（Next Token Prediction, NTP）的任务。这个阶段的标签自动来自文本本身，不需要人工标注。

**简单理解：**这个阶段不教模型怎么回答问题，只让它通过阅读全网资料，把人类社会的语言规律、语法、世界知识"压缩"进它的数万亿个参数权重里。

预训练是 LLM 训练的第一阶段 。模型在海量文本（万亿级 Token）上执行一个简单的任务：预测下一个词（Next Token Prediction, NTP） 。这个阶段的标签自动来自文本本身，不需要人工标注，属于自监督学习。

例子

复制代码

训练数据: 互联网上的海量文本（网页、书籍、论文、代码...）

自监督学习过程:

原始文本: "太阳从东方升起"
    ↓ 自动分割
输入: "太阳从东方升"  →  标签: "起"  （标签就是文本本身的下一个词！）
    ↓
模型预测下一个词 → 对比标签 → 计算 Loss → 反向传播 → 更新参数

为什么需要预训练

一个未经训练的神经网络对语言一无所知。预训练就是让它从万亿字的文本中积累知识------就像婴儿通过听大人说话来学语言，但不理解每个词的精确含义。

作用

通过万亿次预测下一个词，模型自动学会：

语法结构：主谓宾搭配、词性规则、时态变化
语义关系："猫"和"虎"向量接近，"猫"和"冰箱"向量远离
世界知识："华盛顿是美国第一任总统"被编码为参数中的权重模式
推理能力（大规模下）：参数足够多时涌现出逻辑推理能力

数学原理

复制代码

预训练目标（数学形式）:

最大化:  Σ log P(x_i | x_1, x_2, ..., x_{i-1}; θ)

其中:
  x_i = 第 i 个词
  θ  = 模型所有参数（权重 W）
  P(x_i | ...) = 给定前文，预测 x_i 的概率

训练过程: 不断调整 θ，让所有词的概率都尽量接近 1
→ 模型逐渐学会"在什么上下文说什么话"

重要认知：知识不是"存"在参数里的

LLM 不像数据库那样"存储"事实。知识被压缩成了参数中的高维语义表示。

"华盛顿是美国第一任总统"不是作为一个字符串存在某个参数里，而是作为神经网络权重的一种特殊分布模式，使得当输入"华盛顿是美国第"时，FFN 中某个特定模式被激活，输出"一"的概率最高。

补充：Scaling Laws（缩放法则）

DeepMind 的 Chinchilla 论文提出了一个重要规律：

复制代码

最优训练配置: 每个参数约对应 20 个训练 Token

例如: 70B 参数的模型，至少需要 70B × 20 = 1.4 万亿 Token 的数据
如果数据不够，不如用更小的模型 + 更多数据

很多模型实际上"训练不足"（数据量不够）
这是为什么 LLaMA 3 只有 8B 参数却表现优异
→ 它用 15 万亿 Token 训练，远超 8B × 20 = 1600 亿的"标准配置"

NTP vs MLM

概念这是两种不同的预训练范式：

NTP（下文词预测）： 即自回归语言模型。永远根据已知的前文，去猜下一个字应该是什么。
MLM（掩码语言模型）： 即完形填空。把句子中间挖掉一个词，结合前后文的意思把这个词猜出来。

	NTP（Next Token Prediction）	MLM（Masked Language Modeling）
机制	给定前缀，预测下一个词	随机遮住一些词，从上下文猜测
注意力方向	单向（只看前面）	双向（看前后文）
训练出来的模型	擅长生成（GPT 系）	擅长理解（BERT 系）
举例	"太阳从东方升__" → "起"	"地球绕着 $MASK$ 运转" → "太阳"
推理一致性	训练和推理完全一致（都是单向）	训练时能看答案，推理时不能（不一致）

注意力机制（Attention Mask）差异

复制代码

【GPT 系：NTP 单向注意力 (Causal Mask)】
预测时，当前词只能看到自己和它前面的词（1 表示可见，0 表示遮挡）。严格防止信息泄露。

       太  阳  从  东  方
  太 [ 1   0   0   0   0 ]  -> 只能看到"太"
  阳 [ 1   1   0   0   0 ]  -> 能看到"太","阳"
  从 [ 1   1   1   0   0 ]  -> 能看到"太","阳","从"
  东 [ 1   1   1   1   0 ]
  方 [ 1   1   1   1   1 ]


【BERT 系：MLM 双向注意力 (Bidirectional)】
预测时，可以同时看到左右上下文。

       太  阳 [MASK] 东  方
  太 [ 1   1    1    1   1 ]
  阳 [ 1   1    1    1   1 ]
MASK [ 1   1    1    1   1 ] -> MASK 能同时结合左侧(太阳)和右侧(东方)
  东 [ 1   1    1    1   1 ]
  方 [ 1   1    1    1   1 ]

GPT 为什么不用 MLM？

GPT 的目标是生成。MLM 在训练时允许模型"偷看"被遮词的前后文（双向），但实际生成时不能偷看未来。如果训练用 MLM、推理用自回归，两者存在严重的不一致，模型会在生成时"失灵"。

LLM 完整训练流程

LLM 训练分三个阶段，每个阶段的目标、数据、方法都不同：

复制代码

╔══════════════════════════════════════════════╗
║  阶段 1: 预训练（Pre-training）              ║
║                                              ║
║  数据: 海量互联网文本（万亿级 Token）         ║
║  任务: 预测下一个词（NTP）                   ║
║  监督: 自监督（标签来自文本本身）             ║
║  成本: 数千万～数亿美元（GPU 集群）           ║
║  产出: 基座模型 —— 博学但"不听话"            ║
║       会接龙，但不会回答问题                  ║
╚══════════════════╦═══════════════════════════╝
                   ▼
╔══════════════════════════════════════════════╗
║  阶段 2: 监督微调（SFT）                    ║
║                                              ║
║  数据: 人工编写的指令-输出对（数万条）       ║
║  任务: 学习将指令映射到正确输出               ║
║  监督: 有监督（需要人工标注）                 ║
║  成本: 数十万～数百万美元（人工标注）         ║
║  产出: 能听懂指令的模型                       ║
║       你说"翻译"，它就会翻译                  ║
║       但回复质量参差不齐                      ║
╚══════════════════╦═══════════════════════════╝
                   ▼
╔══════════════════════════════════════════════╗
║  阶段 3: RLHF（基于人类反馈的强化学习）      ║
║                                              ║
║  Step 3a: 训练奖励模型（RM）                 ║
║    人类标注员对多个回复排序（A > B > C）     ║
║    → 训练出一个能自动打分的 AI 评委          ║
║                                              ║
║  Step 3b: 用 RM 打分来优化 LLM（PPO）        ║
║    LLM 生成回复 → RM 打分 → 强化学习调参     ║
║    → 反复迭代，让 LLM 学会"取悦评委"         ║
║                                              ║
║  产出: 有用、无害、诚实的 AI 助手             ║
╚══════════════════════════════════════════════╝

一句话解释

预训练学知识 → SFT 学听指令 → RLHF 学做人

现在主流方案：从 RLHF 到 DPO 目前开源界（如 LLaMA 3）已大量使用 DPO（直接偏好优化）取代传统的 RLHF。

传统 RLHF: 需要训练专门的"AI评委"（奖励模型 RM），再用 PPO 算法强化学习调参。流程极其复杂，容易崩溃。
现代 DPO: 数学上的重大突破。不需要训练 AI 评委打分，直接拿"好回答"和"坏回答"对大模型进行对对碰微调。用 SFT 的简单流程达到了 RLHF 的效果，更稳定、省显存。

补充概念：对齐带来的副作用

对齐税（Alignment Tax）： 模型在经过 SFT 和对齐学会"礼貌"和"安全"后，往往会损失一部分预训练阶段学到的通用知识或创造力。
灾难性遗忘（Catastrophic Forgetting）： 在微调阶段，如果注入的新领域知识太多，模型可能会覆盖掉预训练时的旧知识（原本会做的题突然不会了）。

各阶段的"标签"从哪来？

标签（Label）就是"正确答案"或"学习的目标导向"。不同阶段的标签来源完全不同：

预训练阶段（NTP） ------ 自监督标签
- 标签: 原始文本中的下一个词。
- 来源: 自动从文本中截取，零人工成本。
- 举例: "床前明月光，疑是[_____]"，标签 = 文本自带的下一个词 "地"。
SFT 阶段 ------ 有监督标签
- 标签: 人工编写的理想回复（黄金标准）。
- 来源: 人类专家或高精度系统显式手动编写，是主要的成本来源。
- 举例: 指令 "将'你好'翻译成英文"，标签 "Hello"。
对齐阶段（RLHF/DPO） ------ 偏好标签
- 标签: 人类偏好排序（没有绝对的对错，只有相对的好坏）。
- 来源: 标注员比较多个回复（A 比 B 好）。
- 举例: 模型生成 A、B 两个回复，标注员只做排序 A > B，不需要亲自写答案，比 SFT 的标注速度更快。