大模型微调

资料来源于大模型入门实训课-课程详情 | Datawhalehttps://www.datawhale.cn/learn/content/212/4606

需要使用 datasets、transformers、peft 等框架完成从微调数据构造到高效微调模型的整体微调流程

安装命令如下

pip install -q datasets pandas peft

构造微调数据集

当我们进行 LLM SFT 以提升 LLM 在指定下游任务的表现时,我们需要将训练数据构造成上述格式,并对数据集进行处理来支持模型微调

我们使用从《甄嬛传》剧本提取出来的对话作为基准来构建训练数据集。提取出来的对话包括上述格式的键:

  • instruction:即对话的上文;
  • input:此处置为空;
  • output:即甄嬛的回复。

微调数据集可以在此处下载:https://github.com/KMnO4-zx/huanhuan-chat/blob/master/dataset/train/lora/huanhuan.json

复制代码
from datasets import Dataset
import pandas as pd
from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer

# 将JSON文件转换为CSV文件
df = pd.read_json('huanhuan.json') # 注意修改
ds = Dataset.from_pandas(df)

ds[0]

运行后的结果如下

接下来我们需要定义一个数据处理函数,该函数能够使用 Qwen-3-4B 的 tokenizer(分词器,即将自然语言文本转化为向量)对提供的训练文本进行处理并送到模型中进行学习。

不同 LLM 存在不同的指令格式,在我们进行训练时,需要遵守 LLM 预定义的指令格式,才能使训练取得较好的效果。我们首先查看一下 Qwen-3-4B 的指令格式:

复制代码
# 加载模型 tokenizer 
tokenizer = AutoTokenizer.from_pretrained(
    '/root/autodl-tmp/model/Qwen/Qwen3-4B-Thinking-2507',
    trust_remote_code=True,
    local_files_only=True
)

# 打印一下 chat template
messages = [
    {"role": "system", "content": "===system_message_test==="},
    {"role": "user", "content": "===user_message_test==="},
    {"role": "assistant", "content": "===assistant_message_test==="},
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True
)
print(text)

运行结果如下:

bash 复制代码
<|im_start|>system
===system_message_test===<|im_end|>
<|im_start|>user
===user_message_test===<|im_end|>
<|im_start|>assistant
<think>

</think>

===assistant_message_test===<|im_end|>
<|im_start|>assistant
<think>

如果找不到模型目录可以使用以下命令来搜索系统内的模型

bash 复制代码
!find /root -name "config.json" 2>/dev/null | head -20
bash 复制代码
!find / -name "Qwen3-4B-Instruct-2507" -type d 2>/dev/null
相关推荐
努力写A题的小菜鸡9 小时前
PyTorch 图像预处理 transforms 与 TensorBoard 可视化 (自己学习记录)
人工智能·pytorch·学习
测试仪器廖生135902563859 小时前
罗德与施瓦茨 FSP13频谱分析仪FSP30
网络·人工智能·算法
未来和明天9 小时前
领嵌iLeadE-588边缘计算盒子16路AI视频分析、4路AHD、4路千兆网接口
人工智能·边缘计算
上海锝秉工控9 小时前
省线型增量编码器:用“减法思维“重构工业控制的未来
网络·人工智能·重构
蓝星空20009 小时前
怎么使用 Image 2 高效生成商业级 AI 图像(GPT-Image-2 全流程实操教程)
人工智能·gpt·ai作画
沉下去,苦磨练!9 小时前
张量的形状操作以及拼接
人工智能
小黄人软件9 小时前
Claude和Codex下载离线包 安装遇到问题:windows无法访问指定设备 路径 文件 应用无法打开也无法卸载,解决了
人工智能·microsoft·openai·codex
落叶无情9 小时前
分析:不上传文档给AI上下文窗口,仅让Ai上网搜索icef认知框架的详情,可以获得比较完整的信息,并可直接进行基本推理的具体机制
人工智能
王小王-1239 小时前
基于Python的车联网数据聚合与可视化分析平台设计与实现
python·车联网·新能源汽车·车联网聚合分析
Hector_zh9 小时前
逐浪 · 第十一篇: Vibe Coding 下的效率定义与规范建设
人工智能·vibecoding