LLaMA Factory 完全支自定义词库(包括自定义微调数据集、自定义领域词汇/词表)

你想确认 LLaMA Factory 是否支持自定义词库(包括自定义微调数据集、自定义领域词汇/词表),答案是完全支持,而且它对自定义词库的适配非常友好,不管是自定义微调用的数据集(最常用的"词库"),还是扩展模型的词汇表(新增专属token),都有简洁的实现方式。下面我会分场景详细说明具体操作方法,你可以直接照着做。

一、核心场景1:自定义微调数据集(最常用的"词库")

这是你大概率会用到的"自定义词库"场景------把自己的专属数据(比如领域指令、行业问答、私有知识库)做成数据集,用于LLaMA Factory的微调。

1. 支持的数据集格式

LLaMA Factory支持JSON/JSONL/CSV/TXT等多种格式,推荐用JSONL(每行一个样本),格式简单且兼容性最好,示例如下:

jsonl 复制代码
// 自定义数据集文件:my_custom_dataset.jsonl
{"instruction": "解释什么是大模型微调", "input": "", "output": "大模型微调是指在预训练大模型基础上,使用小批量专属数据继续训练,让模型适配特定领域/任务的过程。"}
{"instruction": "LLaMA Factory的核心优势", "input": "", "output": "低代码、多模型适配、支持全微调范式(SFT/DPO)、新手友好。"}
{"instruction": "如何降低微调显存占用", "input": "", "output": "使用QLoRA量化、Unsloth加速、梯度累积、混合精度训练等方法。"}
  • instruction:指令(必填)
  • input:输入上下文(可选,无则留空)
  • output:期望输出(必填)

2. 配置自定义数据集

LLaMA Factory通过dataset_info.json文件识别自定义数据集,步骤如下:

步骤1:创建数据集配置文件

在LLaMA Factory的data/dataset_info.json中添加你的数据集配置(也可新建自定义dataset_info.json):

json 复制代码
{
  "my_custom_dataset": {
    "file_name": "my_custom_dataset.jsonl",  // 你的数据集文件名
    "columns": {
      "prompt": "instruction",  // 对应JSONL中的instruction字段
      "query": "input",         // 对应input字段
      "response": "output"      // 对应output字段
    }
  }
}
步骤2:启动微调(指定自定义数据集)

直接在微调命令中指定--dataset my_custom_dataset即可,完整示例:

bash 复制代码
# 用自定义数据集微调Llama-3-8B(LoRA,单RTX4090)
llamafactory-cli train \
  --model_name_or_path unsloth/llama-3-8b-bnb-4bit \
  --stage sft \
  --do_train \
  --finetuning_type lora \
  --dataset my_custom_dataset \  # 指定你的自定义数据集
  --dataset_dir ./data \  # 数据集所在目录(放my_custom_dataset.jsonl的文件夹)
  --template llama3 \
  --per_device_train_batch_size 4 \
  --gradient_accumulation_steps 4 \
  --learning_rate 2e-4 \
  --num_train_epochs 3 \
  --output_dir ./llama3-8b-custom-lora \
  --fp16 True

二、核心场景2:自定义词汇表(新增专属token)

如果你的领域有大量模型词表中没有的专属词汇(比如生物医药的"SMILES"、金融的"北向资金"),可以扩展tokenizer的词表,LLaMA Factory也完全支持。

1. 步骤:扩展词表并微调

步骤1:准备自定义词汇文件

新建custom_vocab.txt,每行一个专属词汇:

txt 复制代码
// custom_vocab.txt
SMILES
北向资金
大模型微调
QLoRA
Unsloth
步骤2:扩展tokenizer并保存

运行以下代码扩展模型的tokenizer(以Llama-3为例):

python 复制代码
from transformers import AutoTokenizer

# 加载原始tokenizer
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B")

# 添加自定义词汇
custom_vocab = [line.strip() for line in open("custom_vocab.txt", "r", encoding="utf-8")]
tokenizer.add_tokens(custom_vocab)

# 保存扩展后的tokenizer
tokenizer.save_pretrained("./llama3-8b-custom-tokenizer")
步骤3:在LLaMA Factory中使用自定义tokenizer

启动微调时指定--tokenizer_name_or_path为扩展后的tokenizer路径:

bash 复制代码
llamafactory-cli train \
  --model_name_or_path unsloth/llama-3-8b-bnb-4bit \
  --tokenizer_name_or_path ./llama3-8b-custom-tokenizer \  # 自定义tokenizer路径
  --stage sft \
  --do_train \
  --finetuning_type lora \
  --dataset my_custom_dataset \
  --template llama3 \
  --per_device_train_batch_size 4 \
  --gradient_accumulation_steps 4 \
  --learning_rate 2e-4 \
  --num_train_epochs 3 \
  --output_dir ./llama3-8b-custom-vocab-lora \
  --fp16 True

三、关键补充:自定义词库的注意事项

  1. 数据集格式:优先用JSONL,字段名可通过dataset_info.json灵活映射,无需修改原始数据;
  2. 词汇扩展:扩展tokenizer后,模型的embedding层会自动适配新token,但建议微调时少量epochs(1-2轮)专门适配新词汇;
  3. 中文适配:LLaMA Factory对中文自定义词库完全友好,无需额外配置,只需确保数据集编码为UTF-8。

总结

  1. LLaMA Factory完全支持自定义词库,核心分两种场景:自定义微调数据集(适配专属数据)、自定义词汇表(扩展token);
  2. 自定义数据集只需准备JSONL文件+配置dataset_info.json,微调时指定数据集名称即可;
  3. 自定义词汇表需先扩展tokenizer,再在微调命令中指定新tokenizer路径,适配领域专属词汇。

如果你的"自定义词库"是其他场景(比如自定义停用词、自定义prompt模板),可以告诉我,我会补充对应的实现方法。

相关推荐
知秋一叶1233 小时前
Miloco v0.1.6 :米家摄像头清晰度配置 + RTSP 音频传输
人工智能·音视频·智能家居
sali-tec3 小时前
C# 基于OpenCv的视觉工作流-章20-仿射变换
图像处理·人工智能·opencv·算法·计算机视觉
weisian1513 小时前
进阶篇-7-数学篇-6--向量、矩阵、张量在 AI 中的运算与应用:解锁智能的“计算语法”
人工智能·线性代数·矩阵·向量·ai运算
阿杰学AI3 小时前
AI核心知识76——大语言模型之RAG 2.0(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·rag·检索增强生成·rag2.0
shangjian0073 小时前
AI-大语言模型LLM-Transformer架构7-模型参数量计算
人工智能·语言模型·transformer
说私域3 小时前
开源链动2+1模式商城小程序在深度分销数字化转型中的应用研究
人工智能·小程序·开源·流量运营·私域运营
weixin_509138343 小时前
专业书评 | 《智能体认知动力学导论》:当思维有了形状
人工智能·智能体·认知动力学
nvd113 小时前
LangChain 核心对比:ChatPromptTemplate vs PromptTemplate
人工智能·langchain
万岳软件开发小城3 小时前
在线问诊系统源码实战:视频/图文问诊平台搭建步骤全解析
人工智能·开源·源码·在线问诊系统源码·问诊app开发·问诊软件开发·视频问诊小程序