LLaMa-Factory的继续训练(Resume Training)

1.修改总 epoch 数:例如我想在4个epoch后接着训4个,那么

num_train_epochs(训练轮数)从 4 修改为 8

2.增加参数:

找到最后一个checkpoint 文件夹的路径(例如 checkpoint-500)

--resume_from_checkpoint /path/to/your/checkpoint-xxx

位置放置在ouput_dir之后即可

bash 复制代码
output_dir: saves/qwen2_vl-2b_base/sft
resume_from_checkpoint: saves/qwen2_vl-2b_base/sft/checkpoint-500  # <--- 新增这行,顶格写

注意:model_name_or_path路径不变,checkpoint (断点) 里保存的是在底座基础上的"增量更新"(如果是 LoRA)或者"优化器状态",所以必须先加载底座,再加载断点数据覆盖上去。

要注意显卡数量(GPU Count)和第一次训练的数量一致。

相关推荐
weisian15116 小时前
入门篇--知名企业-28-字节跳动-2--字节跳动的AI宇宙:从技术赋能到生态共建的深度布局
人工智能·字节跳动·扣子·豆包
NGBQ1213816 小时前
原创餐饮店铺图片数据集:344张高质量店铺图像助力商业空间识别与智能分析的专业数据集
人工智能
FIT2CLOUD飞致云16 小时前
应用升级为智能体,模板中心上线,MaxKB开源企业级智能体平台v2.5.0版本发布
人工智能·ai·开源·1panel·maxkb
haiyu_y17 小时前
Day 58 经典时序模型 2(ARIMA / 季节性 / 残差诊断)
人工智能·深度学习·ar
peixiuhui17 小时前
突破边界!RK3576边缘计算网关:为工业智能注入“芯”动力
人工智能·物联网·边缘计算·rk3588·iot·rk3568·rk3576
想你依然心痛17 小时前
鲲鹏+昇腾:开启 AI for Science 新范式——基于PINN的流体仿真加速实践
人工智能·鲲鹏·昇腾
蓝眸少年CY17 小时前
SpringAI+Deepseek大模型应用实战
人工智能
程序员欣宸17 小时前
LangChain4j实战之十二:结构化输出之三,json模式
java·人工智能·ai·json·langchain4j
极小狐17 小时前
智谱上市!当 GLM-4.7 遇上 CodeRider :演示何为「1+1>2」的巅峰效能
人工智能·ai编程