LLaMa-Factory的继续训练(Resume Training)

1.修改总 epoch 数:例如我想在4个epoch后接着训4个,那么

num_train_epochs(训练轮数)从 4 修改为 8

2.增加参数:

找到最后一个checkpoint 文件夹的路径(例如 checkpoint-500)

--resume_from_checkpoint /path/to/your/checkpoint-xxx

位置放置在ouput_dir之后即可

bash 复制代码
output_dir: saves/qwen2_vl-2b_base/sft
resume_from_checkpoint: saves/qwen2_vl-2b_base/sft/checkpoint-500  # <--- 新增这行,顶格写

注意:model_name_or_path路径不变,checkpoint (断点) 里保存的是在底座基础上的"增量更新"(如果是 LoRA)或者"优化器状态",所以必须先加载底座,再加载断点数据覆盖上去。

要注意显卡数量(GPU Count)和第一次训练的数量一致。

相关推荐
学海星球19 小时前
Claude Code 开发实战:从入门到精通的完整指南
人工智能
一次旅行19 小时前
Hermes Agent接入飞书
人工智能·飞书
月诸清酒19 小时前
26-260410 AI 科技日报 (阿里开源视频模型HappyHorse登顶,马斯克疑似泄露Claude参数)
人工智能·开源·音视频
jedi-knight19 小时前
AGI时代下的青年教师与学术民主化
人工智能·python·agi
ManageEngineITSM19 小时前
IT服务台为什么越忙越低效?
人工智能·自动化·excel·itsm·工单系统
程砚成20 小时前
小微美业的数字化突围:一款轻量工具,如何让小店告别经营焦虑?
人工智能
IT_陈寒20 小时前
为什么我的Vite热更新老是重新加载整个页面?
前端·人工智能·后端
zhaoshuzhaoshu20 小时前
人工智能(AI)发展史:详细里程碑
人工智能·职场和发展
Luke~20 小时前
阿里云计算巢已上架!3分钟部署 Loki AI 事故分析引擎,SRE 复盘时间直接砍掉 80%
人工智能·阿里云·云计算·loki·devops·aiops·sre
weixin_1562415757620 小时前
基于YOLOv8深度学习花卉识别系统摄像头实时图片文件夹多图片等另有其他的识别系统可二开
大数据·人工智能·python·深度学习·yolo