大模型微调实战：LoRA 与 QLoRA 原理精讲

一、为什么需要微调？

大语言模型（LLM）虽然在通用场景表现优异，但在特定领域任务上往往力不从心。以 GPT-4 为例，它在医学诊断、法律文书、企业私有知识等垂直场景的表现明显不足。**全量微调（Full Fine-tuning）**虽然效果最好，但开销巨大------训练 LLaMA-65B 需要 780GB+ 显存，绝非普通团队所能承受。

二、LoRA：低秩适配

LoRA（Low-Rank Adaptation）是 2021 年由微软提出的一种高效微调方法。核心思想非常巧妙：冻结预训练权重，在 Transformer 层的权重矩阵旁插入低秩矩阵。

原理详解

对于预训练权重矩阵 W ∈ R^(d×k)，LoRA 学习两个低秩矩阵 A ∈ R^(d×r) 和 B ∈ R^(r×k)，使得：

复制代码

W' = W + BA

其中 r << min(d, k)，通常取 4、8、16。这意味着：

原始矩阵可能有 4096×4096 = 16M 参数
LoRA 仅需 4096×8 + 8×4096 = 65K 参数
可训练参数减少 99.6%

推理零开销

LoRA 最优雅的设计：训练完成后可以将 BA 合并回 W，推理时完全不增加计算量。

python 复制代码

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)
model = get_peft_model(base_model, lora_config)

三、QLoRA：量化 + LoRA

QLoRA 是 LoRA 的进化版，在 LoRA 基础上引入 4-bit NormalFloat 量化：

4-bit NormalFloat：信息论最优的 4-bit 数据类型
双重量化：对量化常数再做一次量化，进一步节省内存
分页优化器：利用 CPU 内存缓解 GPU 显存压力

效果：

65B 模型仅需 48GB 显存（一张 A100）
性能损失仅 0.5-1%
普通团队也能微调顶级模型

python 复制代码

from transformers import BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
)

四、主流微调框架

4.1 HuggingFace PEFT

最成熟的 LoRA 实现，集成 transformers 生态。支持 LoRA、Prefix Tuning、P-Tuning、IA3 等多种方法。

4.2 Unsloth

新兴开源框架，通过手写 CUDA 内核，比 PEFT 快 2x、省显存 50%。

4.3 LLaMA-Factory

国产开源微调框架，统一了数据格式和训练流程，支持 Web UI 操作，是国内社区最流行的微调工具之一。

五、微调实战建议

数据质量 > 数据数量：1000 条高质量数据 > 10 万条噪声数据
学习率：LoRA 通常用 1e-4 到 5e-4，比全量微调大一个数量级
Rank 值：r=8 到 16 适用于大多数任务，分类任务可以更小
目标模块：Q 和 V 矩阵是 LoRA 的标准选择，增加 K 和 O 能提升效果但增加开销

本文为个人学习整理，欢迎交流讨论。