大模型微调 PEFT vs LLaMA-Factory:两种微调(SFT)模式深度对比与原理解析
在 LLM(大语言模型)微调的圈子里,开发者通常会接触到两种截然不同的流派:一种是原生代码流 ,即直接使用 HuggingFace Transformers 和 PEFT 库编写 Python 代码;另一种是框架工具流,以 LLaMA-Factory 为代表的集成化工具。
一、 两种微调模式简介
1. PEFT
核心逻辑:开发者需要自己处理数据清洗、Tokenizer 编码、Label Masking(标签掩码)、模型加载、LoRA 配置挂载以及训练循环。
2. LLaMA-Factory
这是目前工业界和学术界快速迭代的首选。
核心逻辑 :将上述繁琐的代码封装成"黑盒",通过配置驱动(YAML 或 命令行参数)来控制训练。
二、 核心实现流程对比
为了直观对比,我们以 Qwen (通义千问) 模型的 LoRA 微调为例。
1. 数据预处理 (最本质的区别)
PEFT数据预处理:
你需要手动编写函数来处理 Prompt 格式(如 <|im_start|>)和 Loss 计算逻辑(Masking)。
python
# 摘自微调 Notebook:手动处理对话模板和掩码
def preprocess_multi_turn_qwen(example):
# ... 省略部分代码 ...
for msg in convs:
# 手动添加特殊 Token
prefix = f"<|im_start|>{role}\n"
# 编码
prefix_ids = tokenizer(prefix, add_special_tokens=False)["input_ids"]
content_ids = tokenizer(content, add_special_tokens=False)["input_ids"]
# 核心难点:手动控制 Label,-100 表示不计算 Loss
if role == "assistant":
# 只有机器人的回答计算梯度
turn_labels = [-100] * len(prefix_ids) + content_ids + suffix_ids
else:
# 用户和 System 的话不计算梯度
turn_labels = [-100] * len(current_turn_ids)
return {"input_ids": input_ids, "labels": labels}
LLaMA-Factory:
不需要关心 input_ids 怎么拼,只需要指定模板名称。
bash
# 命令行参数
--template qwen
原理: 框架内部维护了一套 template 注册表,自动帮你完成了上述 Python 代码中复杂的 Token 拼接和 Label Masking 工作。
2. 模型加载与 LoRA 挂载
PEFT:
需要显式地定义配置,并手动修改模型结构。
python
from peft import LoraConfig, get_peft_model
# 1. 定义配置
config = LoraConfig(
task_type=TaskType.CAUSAL_LM,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
r=8,
lora_alpha=16
)
# 2. 加载基座模型
model = AutoModelForCausalLM.from_pretrained(...)
# 3. 挂载
model = get_peft_model(model, config)
model.print_trainable_parameters() # 打印参数量
LLaMA-Factory :
参数化配置,自动寻找目标模块。
bash
--finetuning_type lora \
--lora_rank 8 \
--lora_alpha 16 \
--lora_target all # 自动识别所有线性层
3. 训练
PEFT:
使用 HF Trainer。如果想用高级功能(如 DeepSpeed、FlashAttention、QLoRA),你需要自己写代码配置 TrainingArguments 和 BitsAndBytesConfig,非常容易报错(如 OOM、类型不匹配)。
LLaMA-Factory:
开箱即用。
- 省显存 :
--flash_attn auto - 量化 :
--quantization_bit 4 - 可视化 :
--plot_loss True - 强化学习 :直接把
--stage sft改成--stage dpo即可无缝切换算法。
三、 深度对比总结表
| 维度 | PEFT | LLaMA-Factory |
|---|---|---|
| 上手难度 | ⭐⭐⭐⭐ (高) | ⭐⭐ (低) |
| 灵活性 | 极高 (可修改模型底层前向传播) | 中等 (受限于框架提供的参数) |
| 数据处理 | 白盒 (完全透明,需手写逻辑) | 黑盒 (模板化,依赖 preset) |
| 多轮对话 | 需手写复杂的掩码(Mask)逻辑 | 自动处理 user/assistant 掩码 |
| 高级特性 | 需手动集成 DeepSpeed/FlashAttn | 一键开启,集成度高 |
| 算法切换 | SFT转DPO需要重写大量代码 | 修改 --stage 参数即可 |
| Debug难度 | 容易出现 Tensor 形状对齐错误 | 主要是环境依赖报错 |
四、PEFT与LlamaFactory在Autodl的实现
PEFT:
1、手动提前下载模型,可以提前配置ModelScope的镜像源
2、数据预处理,按照模型的chat模板构造数据集并Tokenization化
3、配置微调的LoRA参数
4、向模型中添加LoRA模块
5、可以通过Swanlab可视化训练过程
参考:PEFT微调
LlamaFactory:
命令行执行:
1、使用modelscope镜像源下载模型
bash
export USE_MODELSCOPE_HUB=1
2、使用命令行执行训练,下面是具体参数(DPO,强化学习微调):
bash
llamafactory-cli train \
--stage dpo \
--do_train True \
--model_name_or_path qwen/Qwen2.5-0.5B-Instruct \
--finetuning_type lora \
--template qwen \
--dataset dpo_zh_demo \
--dataset_dir data \
--output_dir saves/Qwen2.5-0.5B-Instruct/lora/train_dpo_fix \
--cutoff_len 1024 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 5e-5 \
--num_train_epochs 3.0 \
--lr_scheduler_type cosine \
--logging_steps 5 \
--save_steps 100 \
--fp16 True \
--gradient_checkpointing True \
--lora_rank 8 \
--lora_alpha 16 \
--lora_target all \
--pref_beta 0.1 \
--plot_loss True \
--trust_remote_code True
3、微调之后需要加载lora微调后的参数和原始权重,进行Chat对话:
bash
llamafactory-cli chat \
--model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
--adapter_name_or_path saves/Qwen2.5-0.5B-Instruct/lora/train_dpo_fix \
--template qwen \
--finetuning_type lora
五、 结语
LLaMA-Factory 本质上就是一套写得非常健壮、非常全面的"原生代码"。
它在底层依然调用了 transformers 和 peft。对于初学者,建议先用 LLaMA-Factory 跑通全流程,建立信心;当你发现框架无法满足你的魔改需求时,再深入阅读源码或编写自己的 Training Script。
提示:在使用 LLaMA-Factory 时,如果遇到报错,往往是因为环境变量或依赖版本问题(如 CUDA 版本不匹配);而在使用原生代码时,报错通常是因为 Tensor 维度不匹配或显存溢出。