近期在学习LLM领域的知识,配合在AI那学习到的内容加一些自己的理解,和大家互相交流吧,有问题欢迎指出🫰
预训练、微调、推理这三个阶段构成了LLM从"诞生"到"上场"的完整生命周期,它们既相互关联又各自独立。
类比:把LLM想象成篮球运动员🐔
| 阶段 | 篮球运动员类比 | 核心目标 |
|---|---|---|
| 预训练 | 学习传球、运球、投篮等基本功 | 掌握通用的运动能力和基础技能 |
| 微调 | 战术配合、防守体系的专业训练 | 掌握特定场景下的决策和配合模式 |
| 推理 | 正式比赛中的临场表现 | 根据对手和队友的实时变化做出正确判断 |

一、 预训练(Pre-training)------ "读万卷书"
让模型在含量无标注文本中学习语言的通用规律和世界知识
技术细节:
- 数据量:数万亿级别的文本token,来自网页、代码、书籍等。
- 核心任务:自监督学习, 典型的是"下一个token预测"
- 计算成本:极高,需要数千张高端GPU训练数周甚至数月。
- 输出结果:一个基础模型,比如GPT-3
形象理解:让一个儿童学习篮球基本功,他有了传球、投篮、运球能力,但还没有特定领域的专业技能不知道怎么进攻、怎么防守。
关键特征:预训练后的模型能够理解和生成通顺的文本,但回答可能不够用用------它更像是在续写而不是回答。
二、 微调(Fine-tuning) ------ 术业有专攻
本质: 在预训练模型的基础上,用特定领域的小规模标注数据进行针对性训练
技术细节:
- 数据量: 数万到数百万条高质量标注数据,但相比预训练小得多。
- 核心任务,监督学习,让模型学习特定的输入输出模式。
- 计算成本相对较低,通常只需要少量GPU,在几小时到几天内完成。
常见微调类型:
| 类型 | 目的 | 示例 |
|---|---|---|
| 指令微调(SFT) | 让模型学会"听从指令" | 学习问答、总结、翻译格式 |
| 领域微调 | 专精某个位置(控卫/中锋/射手) | 同一个球员,打控卫练传球,打中锋练篮下 |
| 对话微调 | 优化多轮对话能力 | 让模型记住对话上下文 |
| RLHF/DPO | 对齐人类价值观 | 让回答更安全、更有帮助 |
形象理解: 就像那个有篮球基本功的孩子,现在去打比赛,他不需要学习如何运球、投篮,只需要在已有基础上学习团队习惯和战术
三、推理Inference,学以致用。
本质,使用训练好的模型对新输入进行处理,并生成输出的过程,这就是模型工作的阶段。
技术细节:
- 输入用户的提示词,也就是prompt。
- 过程,模型通过自回归方案方式,逐个生成token。
- 计算成本远低于训练,但高并发场景下仍是主要运营成本。
- 关键参数Temperature(创造性)、Top-p(多样性)、Max tokens(长度限制)
推理的核心机制------自回归生成:
less
用户输入:"人工智能的未来是"
模型计算:P("光明" | "人工智能的未来是") = 0.35
P("充满" | "人工智能的未来是") = 0.28
...
选择概率最高的token → "充满"
然后继续:P("挑战" | "人工智能的未来是充满") = 0.42
···
直到生成完整的句子。
形象理解就是那位儿童已经成长成篮球运动员了,现在他有基本功、战术理解、对队友和敌人的洞悉,已经可以上场打球了
三者的核心区别
| 维度 | 预训练 | 微调 | 推理 |
|---|---|---|---|
| 目的 | 学习通用能力 | 适应特定任务 | 服务实际应用 |
| 数据 | 海量无标注文本 | 小规模标注数据 | 用户的实时输入 |
| 计算 | 训练(反向传播) | 训练(反向传播) | 前向传播(无梯度计算) |
| 参数 | 模型参数被更新 | 部分/全部参数更新 | 参数冻结(不变) |
| 成本 | 极高(百万美元级) | 中等(千到万美元级) | 按调用量计费 |
| 频率 | 很少做(几个月一次) | 定期做(几周一次) | 每次用户提问都在做 |
总结:完整生命周期
markdown
┌─────────────────────────────────────┐
│ 预训练(Pre-training) │
│ 读遍图书馆 → 学会说话和思考的基本规律 │
│ 需要:数千GPU × 数月 × 数万亿token │
└──────────────┬──────────────────────┘
▼
基础模型(Base Model)
像有学习传球、运球、投篮等基本功但没上过场的爱好者
│
┌──────────────┼──────────────┬─────────────────┐
▼ ▼ ▼ ▼
指令微调 领域微调 对话微调 RLHF/DPO
学会听指挥 专精某个位置 学会语音配合 不喷队友积极运动
│ │ │ │
└──────────────┴──────────────┴─────────────────┘
▼
对话模型(Chat Model)
如 ChatGPT, Claude, Kimi
▼
┌───────────────┐
│ 推 理 阶 段 │
│ 实际服务用户 │
│ 每次提问都在用 │
└───────────────┘