LLaMa-Factory的继续训练（Resume Training）

武汉大学-王浩宇2026-01-10 13:59

1.修改总 epoch 数：例如我想在4个epoch后接着训4个，那么

num_train_epochs（训练轮数）从 4 修改为 8

2.增加参数：

找到最后一个checkpoint 文件夹的路径（例如 checkpoint-500）

--resume_from_checkpoint /path/to/your/checkpoint-xxx

位置放置在ouput_dir之后即可

bash 复制代码

output_dir: saves/qwen2_vl-2b_base/sft
resume_from_checkpoint: saves/qwen2_vl-2b_base/sft/checkpoint-500  # <--- 新增这行，顶格写

注意：model_name_or_path路径不变，checkpoint (断点) 里保存的是在底座基础上的"增量更新"（如果是 LoRA）或者"优化器状态"，所以必须先加载底座，再加载断点数据覆盖上去。

要注意显卡数量（GPU Count）和第一次训练的数量一致。