大模型微调

资料来源于大模型入门实训课-课程详情 | Datawhalehttps://www.datawhale.cn/learn/content/212/4606

需要使用 datasets、transformers、peft 等框架完成从微调数据构造到高效微调模型的整体微调流程

安装命令如下

pip install -q datasets pandas peft

构造微调数据集

当我们进行 LLM SFT 以提升 LLM 在指定下游任务的表现时,我们需要将训练数据构造成上述格式,并对数据集进行处理来支持模型微调

我们使用从《甄嬛传》剧本提取出来的对话作为基准来构建训练数据集。提取出来的对话包括上述格式的键:

  • instruction:即对话的上文;
  • input:此处置为空;
  • output:即甄嬛的回复。

微调数据集可以在此处下载:https://github.com/KMnO4-zx/huanhuan-chat/blob/master/dataset/train/lora/huanhuan.json

复制代码
from datasets import Dataset
import pandas as pd
from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer

# 将JSON文件转换为CSV文件
df = pd.read_json('huanhuan.json') # 注意修改
ds = Dataset.from_pandas(df)

ds[0]

运行后的结果如下

接下来我们需要定义一个数据处理函数,该函数能够使用 Qwen-3-4B 的 tokenizer(分词器,即将自然语言文本转化为向量)对提供的训练文本进行处理并送到模型中进行学习。

不同 LLM 存在不同的指令格式,在我们进行训练时,需要遵守 LLM 预定义的指令格式,才能使训练取得较好的效果。我们首先查看一下 Qwen-3-4B 的指令格式:

复制代码
# 加载模型 tokenizer 
tokenizer = AutoTokenizer.from_pretrained(
    '/root/autodl-tmp/model/Qwen/Qwen3-4B-Thinking-2507',
    trust_remote_code=True,
    local_files_only=True
)

# 打印一下 chat template
messages = [
    {"role": "system", "content": "===system_message_test==="},
    {"role": "user", "content": "===user_message_test==="},
    {"role": "assistant", "content": "===assistant_message_test==="},
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True
)
print(text)

运行结果如下:

bash 复制代码
<|im_start|>system
===system_message_test===<|im_end|>
<|im_start|>user
===user_message_test===<|im_end|>
<|im_start|>assistant
<think>

</think>

===assistant_message_test===<|im_end|>
<|im_start|>assistant
<think>

如果找不到模型目录可以使用以下命令来搜索系统内的模型

bash 复制代码
!find /root -name "config.json" 2>/dev/null | head -20
bash 复制代码
!find / -name "Qwen3-4B-Instruct-2507" -type d 2>/dev/null
相关推荐
Kyrie67813 分钟前
SkillOpt:把 Agent 的技能文件当作可训练参数
人工智能
冬奇Lab37 分钟前
Workflow 系列(07):工程化与版本管理——Workflow 的 CI/CD
人工智能·工作流引擎
两万五千个小时38 分钟前
Claude Code 上下文管理(一):为什么 Agent 会"失忆"?
人工智能·架构·开源
两万五千个小时39 分钟前
Claude Code 上下文管理(二):零 Token 消耗的压缩三板斧
人工智能·程序员·开源
冬奇Lab42 分钟前
每日一个开源项目(第150篇):caveman - 为什么用很多 token,少 token 也行——给 AI Agent 装上穴居人嘴巴
人工智能·开源·资讯
贵慜_Derek1 小时前
MAI-04|干净数据在工程上意味着什么:MAI 预训练数据治理
人工智能·算法·llm
feelmylife591 小时前
Agent 记忆设计架构 — 分层记忆:什么时候该记住,什么时候该忘记
人工智能
阿黎梨梨1 小时前
揭秘大语言模型的底层逻辑:从文本分词到高维向量的计算之旅
javascript·人工智能
moMo1 小时前
AI工程化 03:给模型喂上下文
人工智能