LlamaFactory微调Qwen3-0.6B大模型实验整理——调一个人物领域专属的模型

阿豪Jeremy2026-01-24 10:39

构建一个轻量但专业的人物领域问答/推理模型

🚀 阶段一：SFT（监督微调） ：
步骤一 ：构造人物领域问题集

这些问题可以来自公开资料、专业文献、论坛、教材等。

人物数据数量：168条

实验一 ：只加垂类数据集看看效果

GRADIO_SERVER_PORT=8103 CUDA_VISIBLE_DEVICES=1,2,5,7 llamafactory-cli train

--stage sft

--do_train

--model_name_or_path /workspace/codes/deepseek/Qwen3-0.6B

--dataset person

--eval_dataset train_eval

--dataset_dir ./data

--template qwen

--finetuning_type lora

--output_dir ./saves/Qwen3-0.6B/lora/sft_person_1

--overwrite_cache

--overwrite_output_dir

--cutoff_len 1024

--preprocessing_num_workers 16

--per_device_train_batch_size 1

--per_device_eval_batch_size 1

--gradient_accumulation_steps 16

--lr_scheduler_type cosine

--logging_steps 10

--warmup_steps 10

--save_steps 100

--eval_steps 100

--save_strategy steps

--eval_strategy steps

--load_best_model_at_end

--learning_rate 5e-6

--num_train_epochs 30

--lora_rank 64

--lora_alpha 128

--val_size 0

--plot_loss

--fp16