简单学习 --> llm是怎么训练出来的?

进入预训练前的步骤 ------ 分词(Tokenization)

概念 模型看不懂人类的"字符串",它只能处理数字。在 6.1 预训练开始前,必须先通过分词器(Tokenizer)将文本切分成 Token 并映射为 ID。Token 是 LLM 处理信息的最小单位。

简单示例 一个英文单词可能是一个 Token,也可能被切成多个;一个汉字通常是一个或多个 Token。

  • 输入: "LLM是人工智能"

  • Token 切分: ["LL", "M", "是", "人工", "智能"]

  • ID 映射: [452, 89, 1024, 5566, 8899]

原理图解

复制代码
+-------------------+       +-----------------+       +-------------------+
| 原始文本 (Text)   |  ---> | 分词器 (Tokenizer)|  ---> | 向量化 (Embedding)|
| "太阳从东方升起"  |       | 查表映射为数字ID  |       | 映射为高维稠密向量|
+-------------------+       +-----------------+       +-------------------+
                               [56, 102, 988...]      [0.23, -1.2, 0.8...]
                                                             ↓
                                                      进入 Transformer\

预训练(Pre-training)------ 自监督学习

预训练是大规模无标注文本语料库上,利用自监督学习对深度神经网络参数进行初始化训练的过程。其本质是让模型"通读群书,积累常识",在万亿级 Token 的文本上执行预测下一个词(Next Token Prediction, NTP)的任务。这个阶段的标签自动来自文本本身,不需要人工标注。

**简单理解:**这个阶段不教模型怎么回答问题,只让它通过阅读全网资料,把人类社会的语言规律、语法、世界知识"压缩"进它的数万亿个参数权重里。

预训练是 LLM 训练的第一阶段 。模型在海量文本(万亿级 Token)上执行一个简单的任务:预测下一个词(Next Token Prediction, NTP) 。这个阶段的标签自动来自文本本身,不需要人工标注,属于自监督学习

例子

复制代码
训练数据: 互联网上的海量文本(网页、书籍、论文、代码...)
​
自监督学习过程:
​
原始文本: "太阳从东方升起"
    ↓ 自动分割
输入: "太阳从东方升"  →  标签: "起"  (标签就是文本本身的下一个词!)
    ↓
模型预测下一个词 → 对比标签 → 计算 Loss → 反向传播 → 更新参数

为什么需要预训练

一个未经训练的神经网络对语言一无所知。预训练就是让它从万亿字的文本中积累知识------就像婴儿通过听大人说话来学语言,但不理解每个词的精确含义。

作用

通过万亿次预测下一个词,模型自动学会:

  1. 语法结构:主谓宾搭配、词性规则、时态变化

  2. 语义关系:"猫"和"虎"向量接近,"猫"和"冰箱"向量远离

  3. 世界知识:"华盛顿是美国第一任总统"被编码为参数中的权重模式

  4. 推理能力(大规模下):参数足够多时涌现出逻辑推理能力

数学原理

复制代码
预训练目标(数学形式):
​
最大化:  Σ log P(x_i | x_1, x_2, ..., x_{i-1}; θ)
​
其中:
  x_i = 第 i 个词
  θ  = 模型所有参数(权重 W)
  P(x_i | ...) = 给定前文,预测 x_i 的概率
​
训练过程: 不断调整 θ,让所有词的概率都尽量接近 1
→ 模型逐渐学会"在什么上下文说什么话"

重要认知:知识不是"存"在参数里的

LLM 不像数据库那样"存储"事实。知识被压缩成了参数中的高维语义表示。

"华盛顿是美国第一任总统"不是作为一个字符串存在某个参数里,而是作为神经网络权重的一种特殊分布模式,使得当输入"华盛顿是美国第"时,FFN 中某个特定模式被激活,输出"一"的概率最高。

补充:Scaling Laws(缩放法则)

DeepMind 的 Chinchilla 论文提出了一个重要规律:

复制代码
最优训练配置: 每个参数约对应 20 个训练 Token
​
例如: 70B 参数的模型,至少需要 70B × 20 = 1.4 万亿 Token 的数据
如果数据不够,不如用更小的模型 + 更多数据
​
很多模型实际上"训练不足"(数据量不够)
这是为什么 LLaMA 3 只有 8B 参数却表现优异
→ 它用 15 万亿 Token 训练,远超 8B × 20 = 1600 亿的"标准配置"

NTP vs MLM

概念 这是两种不同的预训练范式:

  • NTP(下文词预测): 即自回归语言模型。永远根据已知的前文,去猜下一个字应该是什么。

  • MLM(掩码语言模型): 即完形填空。把句子中间挖掉一个词,结合前后文的意思把这个词猜出来。

NTP(Next Token Prediction) MLM(Masked Language Modeling)
机制 给定前缀,预测下一个词 随机遮住一些词,从上下文猜测
注意力方向 单向(只看前面) 双向(看前后文)
训练出来的模型 擅长生成(GPT 系) 擅长理解(BERT 系)
举例 "太阳从东方升__" → "起" "地球绕着[MASK]运转" → "太阳"
推理一致性 训练和推理完全一致(都是单向) 训练时能看答案,推理时不能(不一致)

注意力机制(Attention Mask)差异

复制代码
【GPT 系:NTP 单向注意力 (Causal Mask)】
预测时,当前词只能看到自己和它前面的词(1 表示可见,0 表示遮挡)。严格防止信息泄露。
​
       太  阳  从  东  方
  太 [ 1   0   0   0   0 ]  -> 只能看到"太"
  阳 [ 1   1   0   0   0 ]  -> 能看到"太","阳"
  从 [ 1   1   1   0   0 ]  -> 能看到"太","阳","从"
  东 [ 1   1   1   1   0 ]
  方 [ 1   1   1   1   1 ]
​
​
【BERT 系:MLM 双向注意力 (Bidirectional)】
预测时,可以同时看到左右上下文。
​
       太  阳 [MASK] 东  方
  太 [ 1   1    1    1   1 ]
  阳 [ 1   1    1    1   1 ]
MASK [ 1   1    1    1   1 ] -> MASK 能同时结合左侧(太阳)和右侧(东方)
  东 [ 1   1    1    1   1 ]
  方 [ 1   1    1    1   1 ]

GPT 为什么不用 MLM?

GPT 的目标是生成。MLM 在训练时允许模型"偷看"被遮词的前后文(双向),但实际生成时不能偷看未来。如果训练用 MLM、推理用自回归,两者存在严重的不一致,模型会在生成时"失灵"。

LLM 完整训练流程

LLM 训练分三个阶段,每个阶段的目标、数据、方法都不同:

复制代码
╔══════════════════════════════════════════════╗
║  阶段 1: 预训练(Pre-training)              ║
║                                              ║
║  数据: 海量互联网文本(万亿级 Token)         ║
║  任务: 预测下一个词(NTP)                   ║
║  监督: 自监督(标签来自文本本身)             ║
║  成本: 数千万~数亿美元(GPU 集群)           ║
║  产出: 基座模型 —— 博学但"不听话"            ║
║       会接龙,但不会回答问题                  ║
╚══════════════════╦═══════════════════════════╝
                   ▼
╔══════════════════════════════════════════════╗
║  阶段 2: 监督微调(SFT)                    ║
║                                              ║
║  数据: 人工编写的指令-输出对(数万条)       ║
║  任务: 学习将指令映射到正确输出               ║
║  监督: 有监督(需要人工标注)                 ║
║  成本: 数十万~数百万美元(人工标注)         ║
║  产出: 能听懂指令的模型                       ║
║       你说"翻译",它就会翻译                  ║
║       但回复质量参差不齐                      ║
╚══════════════════╦═══════════════════════════╝
                   ▼
╔══════════════════════════════════════════════╗
║  阶段 3: RLHF(基于人类反馈的强化学习)      ║
║                                              ║
║  Step 3a: 训练奖励模型(RM)                 ║
║    人类标注员对多个回复排序(A > B > C)     ║
║    → 训练出一个能自动打分的 AI 评委          ║
║                                              ║
║  Step 3b: 用 RM 打分来优化 LLM(PPO)        ║
║    LLM 生成回复 → RM 打分 → 强化学习调参     ║
║    → 反复迭代,让 LLM 学会"取悦评委"         ║
║                                              ║
║  产出: 有用、无害、诚实的 AI 助手             ║
╚══════════════════════════════════════════════╝

一句话解释

预训练学知识 → SFT 学听指令 → RLHF 学做人

现在主流方案:从 RLHF 到 DPO 目前开源界(如 LLaMA 3)已大量使用 DPO(直接偏好优化)取代传统的 RLHF。

  • 传统 RLHF: 需要训练专门的"AI评委"(奖励模型 RM),再用 PPO 算法强化学习调参。流程极其复杂,容易崩溃。

  • 现代 DPO: 数学上的重大突破。不需要训练 AI 评委打分,直接拿"好回答"和"坏回答"对大模型进行对对碰微调。用 SFT 的简单流程达到了 RLHF 的效果,更稳定、省显存。

补充概念:对齐带来的副作用

  • 对齐税(Alignment Tax): 模型在经过 SFT 和对齐学会"礼貌"和"安全"后,往往会损失一部分预训练阶段学到的通用知识或创造力。

  • 灾难性遗忘(Catastrophic Forgetting): 在微调阶段,如果注入的新领域知识太多,模型可能会覆盖掉预训练时的旧知识(原本会做的题突然不会了)。

各阶段的"标签"从哪来?

标签(Label)就是"正确答案"或"学习的目标导向"。不同阶段的标签来源完全不同:

  • 预训练阶段(NTP) ------ 自监督标签

    • 标签: 原始文本中的下一个词。

    • 来源: 自动从文本中截取,零人工成本。

    • 举例: "床前明月光,疑是[_____]",标签 = 文本自带的下一个词 "地"

  • SFT 阶段 ------ 有监督标签

    • 标签: 人工编写的理想回复(黄金标准)。

    • 来源: 人类专家或高精度系统显式手动编写,是主要的成本来源。

    • 举例: 指令 "将'你好'翻译成英文",标签 "Hello"

  • 对齐阶段(RLHF/DPO) ------ 偏好标签

    • 标签: 人类偏好排序(没有绝对的对错,只有相对的好坏)。

    • 来源: 标注员比较多个回复(A 比 B 好)。

    • 举例: 模型生成 A、B 两个回复,标注员只做排序 A > B,不需要亲自写答案,比 SFT 的标注速度更快。

相关推荐
yangshuo12813 小时前
基于豆包AI实现抖音智能评论系统
人工智能
财经资讯数据_灵砚智能3 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月27日
人工智能·python·信息可视化·自然语言处理·ai编程·灵砚智能
盼小辉丶3 小时前
OpenCV-Python实战(24)——打造实时图像滤镜系统
人工智能·python·opencv·计算机视觉
Swift社区3 小时前
鸿蒙 PC 与 AI Runtime:下一代桌面交互
人工智能·交互·harmonyos
chengzi_beibei3 小时前
万字长文:如何用 harness 的理念设计一个 AI 驱动的 UI 自动化工程。
人工智能
北京软秦科技有限公司3 小时前
规避处罚!一单一库实施后,检测机构合规自查全指南(AI报告审核+IACheck赋能)
人工智能
河北小博博3 小时前
从理解到落地:AI Agent 长期记忆系统的原理、框架与阿里云选型指南
人工智能·阿里云·云计算
wuxinyan1233 小时前
工业级大模型学习之路028:多智能体系统基础与双智能体协作
人工智能·python·学习
前沿科技说i3 小时前
告别赛道内卷,锚定中盘核心:国泰 A500ETF(159338)领跑均衡配置新时代
人工智能