大模型微调 - 技术栈

资料来源于大模型入门实训课-课程详情 | Datawhalehttps://www.datawhale.cn/learn/content/212/4606

需要使用 datasets、transformers、peft 等框架完成从微调数据构造到高效微调模型的整体微调流程

安装命令如下

pip install -q datasets pandas peft

构造微调数据集

当我们进行 LLM SFT 以提升 LLM 在指定下游任务的表现时，我们需要将训练数据构造成上述格式，并对数据集进行处理来支持模型微调

我们使用从《甄嬛传》剧本提取出来的对话作为基准来构建训练数据集。提取出来的对话包括上述格式的键：

instruction：即对话的上文；
input：此处置为空；
output：即甄嬛的回复。

微调数据集可以在此处下载：https://github.com/KMnO4-zx/huanhuan-chat/blob/master/dataset/train/lora/huanhuan.json

复制代码

from datasets import Dataset
import pandas as pd
from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer

# 将JSON文件转换为CSV文件
df = pd.read_json('huanhuan.json') # 注意修改
ds = Dataset.from_pandas(df)

ds[0]

运行后的结果如下

接下来我们需要定义一个数据处理函数，该函数能够使用 Qwen-3-4B 的 tokenizer（分词器，即将自然语言文本转化为向量）对提供的训练文本进行处理并送到模型中进行学习。

不同 LLM 存在不同的指令格式，在我们进行训练时，需要遵守 LLM 预定义的指令格式，才能使训练取得较好的效果。我们首先查看一下 Qwen-3-4B 的指令格式：

复制代码

# 加载模型 tokenizer 
tokenizer = AutoTokenizer.from_pretrained(
    '/root/autodl-tmp/model/Qwen/Qwen3-4B-Thinking-2507',
    trust_remote_code=True,
    local_files_only=True
)

# 打印一下 chat template
messages = [
    {"role": "system", "content": "===system_message_test==="},
    {"role": "user", "content": "===user_message_test==="},
    {"role": "assistant", "content": "===assistant_message_test==="},
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True
)
print(text)

运行结果如下：

bash 复制代码

<|im_start|>system
===system_message_test===<|im_end|>
<|im_start|>user
===user_message_test===<|im_end|>
<|im_start|>assistant
<think>

</think>

===assistant_message_test===<|im_end|>
<|im_start|>assistant
<think>

如果找不到模型目录可以使用以下命令来搜索系统内的模型

bash 复制代码

!find /root -name "config.json" 2>/dev/null | head -20

bash 复制代码

!find / -name "Qwen3-4B-Instruct-2507" -type d 2>/dev/null