1.修改总 epoch 数:例如我想在4个epoch后接着训4个,那么
num_train_epochs(训练轮数)从 4 修改为 8
2.增加参数:
找到最后一个checkpoint 文件夹的路径(例如 checkpoint-500)
--resume_from_checkpoint /path/to/your/checkpoint-xxx
位置放置在ouput_dir之后即可
bash
output_dir: saves/qwen2_vl-2b_base/sft
resume_from_checkpoint: saves/qwen2_vl-2b_base/sft/checkpoint-500 # <--- 新增这行,顶格写
注意:model_name_or_path路径不变,checkpoint (断点) 里保存的是在底座基础上的"增量更新"(如果是 LoRA)或者"优化器状态",所以必须先加载底座,再加载断点数据覆盖上去。
要注意显卡数量(GPU Count)和第一次训练的数量一致。