如果说**预训练(Pre-train)**是让模型在图书馆里读万卷书,那么 SFT(有监督微调) 就是教模型如何通过考试、如何与人沟通,而 LoRA 则是完成这一过程最经济高效的"手术刀"。
一、 SFT (Supervised Fine-Tuning):从"接龙"到"对话"
1.1 核心定义
SFT 是在高质量、人工编写的指令数据集上,对基座模型(Base Model)进行的微调。
- 输入模式 :
Instruction (指令) + Input (上下文) -> Output (标准答案) - 目标:修正模型的输出行为,使其从"无目的的文本补全"转变为"遵循指令的对话助手"。
1.2 训练逻辑:Teacher Forcing
SFT 的训练流程与预训练相似,但在工程实现上有两个关键差异点:
- 精准目标 :通过最小化模型输出与标准答案之间的交叉熵损失。
- 损失掩码 (Loss Masking):仅针对 Answer 部分计算梯度,不对 Prompt 部分算 Loss。
二、 LoRA (Low-Rank Adaptation):参数的"补丁"艺术
2.1 核心原理
LoRA 认为模型在微调时的参数变化具有"低秩性"。它不在原始矩阵 <math xmlns="http://www.w3.org/1998/Math/MathML"> W W </math>W 上动刀,而是在旁边并联两个小矩阵 <math xmlns="http://www.w3.org/1998/Math/MathML"> A A </math>A 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> B B </math>B:
- 计算公式 : <math xmlns="http://www.w3.org/1998/Math/MathML"> O u t p u t = ( W f r o z e n × x ) + ( B × A × x ) ⋅ α r Output = (W_{frozen} \times x) + (B \times A \times x) \cdot \frac{\alpha}{r} </math>Output=(Wfrozen×x)+(B×A×x)⋅rα
- 矩阵 A (降维) :将高维信号压缩到极小的维度 <math xmlns="http://www.w3.org/1998/Math/MathML"> r r </math>r。
- 矩阵 B (升维):将压缩后的信号还原回原始维度。
三、 LoRA 核心超参数:控制微调的"力度"
在配置 LoRA 时,有两个参数直接决定了微调的效果:
3.1 秩 (Rank / r) ------ "画板的大小"
- 定义:低秩矩阵的中间维度。
- 作用 :决定了你允许模型学习多少新信息。
- 配置建议 :
- r=8/16:适合一般对话、风格转换。显存占用极低。
- r=32/64:适合复杂逻辑、学习特定领域知识(如医学、代码)。
3.2 缩放因子 (Alpha / lora_alpha) ------ "颜料的浓度"
- 定义 :控制微调信号在最终输出中的权重,缩放系数为 <math xmlns="http://www.w3.org/1998/Math/MathML"> α r \frac{\alpha}{r} </math>rα。
- 作用:决定了模型有多么"听从"微调后的新指令。
- 配置建议 :
- 工业标准 :通常设置
lora_alpha = 2 * r。 - 调优:如果模型不听指令,调大 Alpha;如果模型胡言乱语(遗忘严重),调小 Alpha 或 Rank。
- 工业标准 :通常设置
3.3 QLoRA 的底层博弈:时间换空间
1. 本质逻辑 : QLoRA 通过增加 Dequantization(反量化) 的计算步骤,换取了 VRAM(显存) 的剧烈下降。
- 时间损耗:由于每层计算前都要进行一次 4-bit 到 16-bit 的实时解压,训练时间通常比标准 LoRA 慢 10% 左右。
- 空间红利:显存占用缩减至原模型 FP16 状态的 1/4 左右。
2. 核心权衡:
- 如果你手里有 H100/A100 集群 :建议用 LoRA,追求最快的迭代速度。
- 如果你手里只有 个人显卡或租用的廉价显卡 :QLoRA 是唯一的入场券,它让你能以极低成本运行大参数模型。
3. 结论 : QLoRA 不是一种"让模型变强"的技术,而是一种"让模型能练"的平权技术。
四、 关键节点:LoRA 挂载在哪些具体的 Linear 层?
| 模块 | 矩阵名称 | 作用解析 | 微调价值 |
|---|---|---|---|
| Attention | <math xmlns="http://www.w3.org/1998/Math/MathML"> W Q , W K , W V W_Q, W_K, W_V </math>WQ,WK,WV | 决定模型"关注什么"以及"提取什么信息" | 最高优先级,核心指令遵循能力 |
| Attention | <math xmlns="http://www.w3.org/1998/Math/MathML"> W O W_O </math>WO | 负责将多个注意力头的结果"缝合"并压回原始维度 | 调整多头结果的融合逻辑 |
| MLP | <math xmlns="http://www.w3.org/1998/Math/MathML"> W g a t e W_{gate} </math>Wgate | SwiGLU 的开关,负责过滤不相关的特征信号 | 调整知识过滤与逻辑选择 |
| MLP | <math xmlns="http://www.w3.org/1998/Math/MathML"> W u p , W d o w n W_{up}, W_{down} </math>Wup,Wdown | 负责知识特征的升维扩展与降维压缩 | 影响事实知识的提取与转换 |
五、 总结与最佳实践
-
组合拳:SFT 提供了高质量数据,LoRA 提供了低成本更新参数的手段。
-
保护本能:由于主干参数冻结,LoRA 微调后的模型通常比全参数微调更稳定,不容易彻底"学傻"。
-
PEFT 配置示例 :
pythonconfig = LoraConfig( r=16, lora_alpha=32, target_modules=["q_proj", "v_proj", "gate_proj", "up_proj", "down_proj"], lora_dropout=0.05, bias="none" )