资料来源于大模型入门实训课-课程详情 | Datawhale
https://www.datawhale.cn/learn/content/212/4606
需要使用 datasets、transformers、peft 等框架完成从微调数据构造到高效微调模型的整体微调流程
安装命令如下
pip install -q datasets pandas peft
构造微调数据集
当我们进行 LLM SFT 以提升 LLM 在指定下游任务的表现时,我们需要将训练数据构造成上述格式,并对数据集进行处理来支持模型微调
我们使用从《甄嬛传》剧本提取出来的对话作为基准来构建训练数据集。提取出来的对话包括上述格式的键:
- instruction:即对话的上文;
- input:此处置为空;
- output:即甄嬛的回复。
微调数据集可以在此处下载:https://github.com/KMnO4-zx/huanhuan-chat/blob/master/dataset/train/lora/huanhuan.json
from datasets import Dataset
import pandas as pd
from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer
# 将JSON文件转换为CSV文件
df = pd.read_json('huanhuan.json') # 注意修改
ds = Dataset.from_pandas(df)
ds[0]
运行后的结果如下

接下来我们需要定义一个数据处理函数,该函数能够使用 Qwen-3-4B 的 tokenizer(分词器,即将自然语言文本转化为向量)对提供的训练文本进行处理并送到模型中进行学习。
不同 LLM 存在不同的指令格式,在我们进行训练时,需要遵守 LLM 预定义的指令格式,才能使训练取得较好的效果。我们首先查看一下 Qwen-3-4B 的指令格式:
# 加载模型 tokenizer
tokenizer = AutoTokenizer.from_pretrained(
'/root/autodl-tmp/model/Qwen/Qwen3-4B-Thinking-2507',
trust_remote_code=True,
local_files_only=True
)
# 打印一下 chat template
messages = [
{"role": "system", "content": "===system_message_test==="},
{"role": "user", "content": "===user_message_test==="},
{"role": "assistant", "content": "===assistant_message_test==="},
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True
)
print(text)
运行结果如下:
bash
<|im_start|>system
===system_message_test===<|im_end|>
<|im_start|>user
===user_message_test===<|im_end|>
<|im_start|>assistant
<think>
</think>
===assistant_message_test===<|im_end|>
<|im_start|>assistant
<think>
如果找不到模型目录可以使用以下命令来搜索系统内的模型
bash
!find /root -name "config.json" 2>/dev/null | head -20
bash
!find / -name "Qwen3-4B-Instruct-2507" -type d 2>/dev/null