大模型微调

资料来源于大模型入门实训课-课程详情 | Datawhalehttps://www.datawhale.cn/learn/content/212/4606

需要使用 datasets、transformers、peft 等框架完成从微调数据构造到高效微调模型的整体微调流程

安装命令如下

pip install -q datasets pandas peft

构造微调数据集

当我们进行 LLM SFT 以提升 LLM 在指定下游任务的表现时,我们需要将训练数据构造成上述格式,并对数据集进行处理来支持模型微调

我们使用从《甄嬛传》剧本提取出来的对话作为基准来构建训练数据集。提取出来的对话包括上述格式的键:

  • instruction:即对话的上文;
  • input:此处置为空;
  • output:即甄嬛的回复。

微调数据集可以在此处下载:https://github.com/KMnO4-zx/huanhuan-chat/blob/master/dataset/train/lora/huanhuan.json

复制代码
from datasets import Dataset
import pandas as pd
from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer

# 将JSON文件转换为CSV文件
df = pd.read_json('huanhuan.json') # 注意修改
ds = Dataset.from_pandas(df)

ds[0]

运行后的结果如下

接下来我们需要定义一个数据处理函数,该函数能够使用 Qwen-3-4B 的 tokenizer(分词器,即将自然语言文本转化为向量)对提供的训练文本进行处理并送到模型中进行学习。

不同 LLM 存在不同的指令格式,在我们进行训练时,需要遵守 LLM 预定义的指令格式,才能使训练取得较好的效果。我们首先查看一下 Qwen-3-4B 的指令格式:

复制代码
# 加载模型 tokenizer 
tokenizer = AutoTokenizer.from_pretrained(
    '/root/autodl-tmp/model/Qwen/Qwen3-4B-Thinking-2507',
    trust_remote_code=True,
    local_files_only=True
)

# 打印一下 chat template
messages = [
    {"role": "system", "content": "===system_message_test==="},
    {"role": "user", "content": "===user_message_test==="},
    {"role": "assistant", "content": "===assistant_message_test==="},
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True
)
print(text)

运行结果如下:

bash 复制代码
<|im_start|>system
===system_message_test===<|im_end|>
<|im_start|>user
===user_message_test===<|im_end|>
<|im_start|>assistant
<think>

</think>

===assistant_message_test===<|im_end|>
<|im_start|>assistant
<think>

如果找不到模型目录可以使用以下命令来搜索系统内的模型

bash 复制代码
!find /root -name "config.json" 2>/dev/null | head -20
bash 复制代码
!find / -name "Qwen3-4B-Instruct-2507" -type d 2>/dev/null
相关推荐
冬奇Lab2 小时前
RAG 系列(二十三):多模态 RAG——图片、表格也能检索
人工智能·llm
z小猫不吃鱼2 小时前
06 ViT 为什么需要大规模数据?从归纳偏置理解 ViT 的训练特点
深度学习·计算机视觉·cnn
冬奇Lab2 小时前
一天一个开源项目(第106篇):Claude Plugins Official - Anthropic 官方 Claude Code 插件生态全解析
人工智能·开源·资讯
落羽的落羽3 小时前
【算法札记】练习 | Week4
linux·服务器·数据结构·c++·人工智能·算法·动态规划
范范@3 小时前
python基础-函数
开发语言·python
英辰朗迪AI获客3 小时前
【AI】豆包与抖音智能功能深度评测报告
人工智能
2301_803934613 小时前
MySQL 字段类型选择规范指南
jvm·数据库·python
大橙子打游戏3 小时前
难题彻底解决!VPaste:让 SSH 终端也能"粘贴"截图
人工智能
IT_陈寒4 小时前
Redis内存用爆了,原来我们都忽略了这个配置
前端·人工智能·后端