理解LLM的基本工作原理:预训练、微调、推理的区别

近期在学习LLM领域的知识,配合在AI那学习到的内容加一些自己的理解,和大家互相交流吧,有问题欢迎指出🫰

预训练、微调、推理这三个阶段构成了LLM从"诞生"到"上场"的完整生命周期,它们既相互关联又各自独立。

类比:把LLM想象成篮球运动员🐔

阶段 篮球运动员类比 核心目标
预训练 学习传球、运球、投篮等基本功 掌握通用的运动能力和基础技能
微调 战术配合、防守体系的专业训练 掌握特定场景下的决策和配合模式
推理 正式比赛中的临场表现 根据对手和队友的实时变化做出正确判断

一、 预训练(Pre-training)------ "读万卷书"

让模型在含量无标注文本中学习语言的通用规律和世界知识

技术细节:

  • 数据量:数万亿级别的文本token,来自网页、代码、书籍等。
  • 核心任务:自监督学习, 典型的是"下一个token预测"
  • 计算成本:极高,需要数千张高端GPU训练数周甚至数月。
  • 输出结果:一个基础模型,比如GPT-3

形象理解:让一个儿童学习篮球基本功,他有了传球、投篮、运球能力,但还没有特定领域的专业技能不知道怎么进攻、怎么防守。

关键特征:预训练后的模型能够理解和生成通顺的文本,但回答可能不够用用------它更像是在续写而不是回答。

二、 微调(Fine-tuning) ------ 术业有专攻

本质: 在预训练模型的基础上,用特定领域的小规模标注数据进行针对性训练

技术细节:

  • 数据量: 数万到数百万条高质量标注数据,但相比预训练小得多。
  • 核心任务,监督学习,让模型学习特定的输入输出模式。
  • 计算成本相对较低,通常只需要少量GPU,在几小时到几天内完成。

常见微调类型:

类型 目的 示例
指令微调(SFT) 让模型学会"听从指令" 学习问答、总结、翻译格式
领域微调 专精某个位置(控卫/中锋/射手) 同一个球员,打控卫练传球,打中锋练篮下
对话微调 优化多轮对话能力 让模型记住对话上下文
RLHF/DPO 对齐人类价值观 让回答更安全、更有帮助

形象理解: 就像那个有篮球基本功的孩子,现在去打比赛,他不需要学习如何运球、投篮,只需要在已有基础上学习团队习惯和战术

三、推理Inference,学以致用。

本质,使用训练好的模型对新输入进行处理,并生成输出的过程,这就是模型工作的阶段。

技术细节:

  • 输入用户的提示词,也就是prompt。
  • 过程,模型通过自回归方案方式,逐个生成token。
  • 计算成本远低于训练,但高并发场景下仍是主要运营成本。
  • 关键参数Temperature(创造性)、Top-p(多样性)、Max tokens(长度限制)

推理的核心机制------自回归生成:

less 复制代码
用户输入:"人工智能的未来是"

模型计算:P("光明" | "人工智能的未来是") = 0.35

         P("充满" | "人工智能的未来是") = 0.28
         ...
选择概率最高的token → "充满"

然后继续:P("挑战" | "人工智能的未来是充满") = 0.42

···
直到生成完整的句子。

形象理解就是那位儿童已经成长成篮球运动员了,现在他有基本功、战术理解、对队友和敌人的洞悉,已经可以上场打球了

三者的核心区别

维度 预训练 微调 推理
目的 学习通用能力 适应特定任务 服务实际应用
数据 海量无标注文本 小规模标注数据 用户的实时输入
计算 训练(反向传播) 训练(反向传播) 前向传播(无梯度计算)
参数 模型参数被更新 部分/全部参数更新 参数冻结(不变)
成本 极高(百万美元级) 中等(千到万美元级) 按调用量计费
频率 很少做(几个月一次) 定期做(几周一次) 每次用户提问都在做

总结:完整生命周期

markdown 复制代码
         ┌─────────────────────────────────────┐
         │         预训练(Pre-training)         │
         │    读遍图书馆 → 学会说话和思考的基本规律   │
         │    需要:数千GPU × 数月 × 数万亿token    │
         └──────────────┬──────────────────────┘
                        ▼
                  基础模型(Base Model)
           像有学习传球、运球、投篮等基本功但没上过场的爱好者
                        │
         ┌──────────────┼──────────────┬─────────────────┐
         ▼              ▼              ▼                 ▼
    指令微调       领域微调        对话微调          RLHF/DPO
    学会听指挥     专精某个位置     学会语音配合       不喷队友积极运动
         │              │              │                 │
         └──────────────┴──────────────┴─────────────────┘
                        ▼
              对话模型(Chat Model)
            如 ChatGPT, Claude, Kimi
                        ▼
                ┌───────────────┐
                │    推 理 阶 段   │
                │   实际服务用户    │
                │   每次提问都在用   │
                └───────────────┘
相关推荐
Gatlin2 小时前
前端逆向与反逆向:一场猫鼠游戏的底层逻辑与实战
前端
Pedantic2 小时前
本地通知(Local Notifications)学习笔记
前端
森蓝情丶3 小时前
我给 AI 搭了个法庭:一个前端仔的 LangGraph 实战全记录
前端·后端
爱勇宝3 小时前
干了近 8 年,一夜之间被裁:AI 时代,程序员最该害怕的不是 AI
前端·后端·程序员
Pedantic3 小时前
Combine 框架学习笔记
前端
runnerdancer3 小时前
Agent如何加载执行Skill的脚本
前端·agent
yingyima3 小时前
VS Code 正则替换技巧:从凌晨3点的服务器报警开始
前端
默_笙4 小时前
🛬 我让 AI 帮我写了一个打飞机游戏,结果 Canvas 把我整不会了
前端·javascript
梯度不陡4 小时前
AI 到底能不能从零写软件?ProgramBench 和 RepoZero 给出了两种答案
前端·javascript·面试