9. 微调(Fine-tuning)的数学原理

大模型微调(Fine-tuning)的本质:

是通过数学优化,让模型预测更接近正确答案。

虽然大模型看起来像:

  • 聊天
  • 推理
  • 写代码

但底层本质上仍然是:

神经网络参数优化问题。


1. 神经网络训练的核心流程

训练过程本质上是:

复制代码
输入数据
→ 模型预测
→ 计算误差
→ 调整参数
→ 再次预测

不断循环。


2. 微调训练完整流程

复制代码
graph TD

A[训练数据 Input/Output]
--> B[Tokenizer 分词]

B --> C[输入模型]

C --> D[预测下一个 Token 概率]

D --> E[计算 Loss 损失函数]

E --> F[Backward 反向传播]

F --> G[计算梯度 Gradient]

G --> H[Optimizer 更新参数]

H --> I[模型权重更新]

I --> J[继续下一轮训练]

3. 微调训练的核心步骤

通常包括:

步骤 作用
添加训练数据 教模型学习任务
前向传播(Forward) 模型预测结果
计算损失(Loss) 判断预测是否正确
反向传播(Backward) 计算参数如何调整
Optimizer 更新权重 让模型变得更好
多轮训练(Epoch) 持续优化模型

4. 添加训练数据

例如:

复制代码
input:
中国的首都是哪里?

output:
北京

模型目标:

预测出 "北京"。


5. 模型输出的本质

模型并不是直接输出:

复制代码
北京

而是输出:

整个词表上的概率分布。

例如:

Token 概率
北京 0.7
上海 0.2
东京 0.1

6. Loss(损失函数)

Loss 用于衡量:

模型预测有多"错误"。


7. Cross Entropy(交叉熵)

大模型最常见的 Loss 是:

Cross Entropy Loss(交叉熵损失)

它的作用:

比较"预测概率"和"正确答案"的差距。


8. 交叉熵的直觉理解

如果正确答案是:

复制代码
北京

情况1:预测正确

Token 概率
北京 0.95

Loss:

复制代码
很小

说明模型预测很好。


情况2:预测错误

Token 概率
上海 0.8
北京 0.1

Loss:

复制代码
很大

说明模型预测错误。


9. Loss 的目标

训练目标就是:

让 Loss 越来越小。

即:

复制代码
预测越来越接近正确答案

10. Forward(前向传播)

前向传播:

模型从输入一路计算到输出。

过程包括:

复制代码
Input
→ Embedding
→ Transformer
→ Logits
→ Probability

11. Backward(反向传播)

计算完 Loss 后,

模型需要知道:

"哪里错了"。

这一步叫:

Backpropagation(反向传播)


12. 反向传播做了什么

它会从 Loss 开始:

反向计算每个参数对错误的影响。

即:

复制代码
哪个参数导致预测错误?

13. Gradient(梯度)是什么

梯度(Gradient)本质上是:

参数应该往哪个方向调整。

可以理解为:

复制代码
"修正建议"

14. 梯度的直觉理解

例如:

模型预测:

复制代码
上海

但正确答案是:

复制代码
北京

梯度会告诉模型:

复制代码
减少"上海"的概率
增加"北京"的概率

15. 参数更新流程

复制代码
graph LR

A[模型预测错误]
--> B[计算 Loss]

B --> C[Backward 计算梯度]

C --> D[Optimizer 更新参数]

D --> E[模型预测更准确]

16. Optimizer(优化器)

Optimizer 的作用:

根据梯度更新模型参数。

即:

复制代码
参数 = 参数 - 学习率 × 梯度

17. SGD(随机梯度下降)

最经典优化器:

SGD(Stochastic Gradient Descent)

思想很简单:

复制代码
哪里错了
→ 就往反方向修正

18. 学习率(Learning Rate)

Learning Rate 决定:

每次参数调整幅度。


学习率太小

复制代码
训练非常慢

学习率太大

复制代码
训练不稳定
甚至发散

19. 大模型常用优化器

现代 LLM 很少直接使用 SGD。

更常见:

  • Adam
  • AdamW

20. Adam 的核心思想

Adam 会自动:

  • 调整不同参数学习速度
  • 平滑梯度变化
  • 提升训练稳定性

因此:

Adam 更适合超大模型训练。


21. AdamW

AdamW 是 Adam 的改进版。

特点:

更好的 Weight Decay(权重衰减)

它能有效:

  • 防止过拟合
  • 提升泛化能力

目前:

AdamW 是 LLM 微调最常见优化器之一。


22. Parallel Training(并行训练)

大模型参数巨大:

复制代码
7B
70B
100B+

单卡无法训练。

因此需要:

并行计算(Parallel Training)


23. 常见并行方式

类型 作用
Data Parallel 数据并行
Tensor Parallel 张量并行
Pipeline Parallel 流水线并行

24. 梯度爆炸(Gradient Explosion)

训练中可能出现:

复制代码
Gradient 非常大

导致:

  • Loss 爆炸
  • 参数崩坏
  • 模型 NaN

25. 如何防止梯度爆炸

常见方法:

Gradient Clipping(梯度裁剪)

例如:

复制代码
限制梯度最大值

避免更新过大。


26. 如何防止过拟合(Overfitting)

过拟合:

模型记住训练集,

但不会泛化。


27. 常见防止过拟合方法

方法 作用
更多数据 提升泛化
Dropout 增加随机性
Weight Decay 限制参数过大
Early Stopping 提前停止训练
验证集评估 监控泛化能力

28. Epoch 是什么

Epoch:

模型完整学习一遍训练集。

例如:

复制代码
epoch = 1

表示:

所有训练数据都训练了一轮。


29. 训练代码示例(HuggingFace)

复制代码
trainer = SFTTrainer(
    model=model,
    args=args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset
)

for epoch in range(num_epochs):
    trainer.train()

30. 训练中的关键步骤

复制代码
loss.backward()
optimizer.step()
optimizer.zero_grad()

31. backward()

复制代码
loss.backward()

作用:

计算梯度。


32. optimizer.step()

复制代码
optimizer.step()

作用:

更新模型参数。


33. optimizer.zero_grad()

复制代码
optimizer.zero_grad()

作用:

清空旧梯度。

否则梯度会不断累积。


34. HuggingFace 可视化训练

训练过程中通常会观察:

  • Loss 曲线
  • Learning Rate
  • Weight 更新
  • Gradient 大小

用于判断:

  • 是否收敛
  • 是否过拟合
  • 是否训练稳定

35. 微调训练的本质

整个 Fine-tuning 的本质:

复制代码
不断预测
→ 计算错误
→ 修正参数
→ 预测更准确

循环上亿次。


36. 一句话总结

Loss:

衡量模型错得多严重。

Gradient:

告诉模型该怎么改。

Optimizer:

负责真正修改参数。

Fine-tuning:

本质上是一个不断"减少错误"的数学优化过程。

相关推荐
zzhongcy1 小时前
AI时代软件开发的深度感悟
人工智能
zhangfeng11331 小时前
国家超算中心 htc 如果只有gpu资源 没有cpu资源 操作文件的时候会不会很卡呢
人工智能·pytorch·python·机器学习
零壹AI实验室1 小时前
英伟达Vera Rubin芯片:Blackwell直接过时?Agentic AI时代的硬件革命
人工智能
晚风吹红霞1 小时前
C++ stack 和 queue 完全指南:适配器模式与双端队列的奥秘
c++·算法·适配器模式
coder Ethan1 小时前
Spring AI 入门:(3)快速搭建一个简单的问答助手
java·人工智能·spring
高兴高兴张高兴1 小时前
张高兴的 Hailo-10 开发指南:(一)实现离线语音识别
人工智能·语音识别
霸道流氓气质1 小时前
Spring AI Alibaba + Ollama+Embedding向量化项目完整指南
人工智能·spring·embedding
键盘侠伍十七1 小时前
garak 如何探测 LLM 的越狱漏洞
人工智能·大模型·大模型安全·越狱攻击·garak·jailbreaking
程序猿阿伟1 小时前
《企业IT系统无缝集成指南》
人工智能