LLaMa-Factory的继续训练(Resume Training)

1.修改总 epoch 数:例如我想在4个epoch后接着训4个,那么

num_train_epochs(训练轮数)从 4 修改为 8

2.增加参数:

找到最后一个checkpoint 文件夹的路径(例如 checkpoint-500)

--resume_from_checkpoint /path/to/your/checkpoint-xxx

位置放置在ouput_dir之后即可

bash 复制代码
output_dir: saves/qwen2_vl-2b_base/sft
resume_from_checkpoint: saves/qwen2_vl-2b_base/sft/checkpoint-500  # <--- 新增这行,顶格写

注意:model_name_or_path路径不变,checkpoint (断点) 里保存的是在底座基础上的"增量更新"(如果是 LoRA)或者"优化器状态",所以必须先加载底座,再加载断点数据覆盖上去。

要注意显卡数量(GPU Count)和第一次训练的数量一致。

相关推荐
2501_94583743几秒前
OpenClaw:让 AI 从 “说” 到 “做” 的开源智能体
人工智能
Q270681020几秒前
告别AI配乐短板:创作者音乐素材精准选型
人工智能
sali-tec1 分钟前
C# 基于OpenCv的视觉工作流-章76-轮廓-段距
图像处理·人工智能·opencv·算法·计算机视觉
踏着七彩祥云的小丑1 分钟前
AI——LangChain 三大核心概念
人工智能·ai·langchain
ling1233451 分钟前
AI迈向“自动驾驶”,零售回归“人间清醒”:2026商业底层逻辑正在重组
人工智能·自动驾驶·零售
GIS数据转换器5 分钟前
基于低空巡检的空地一体智慧治理平台
大数据·人工智能·数据挖掘·数据分析·无人机
ar01237 分钟前
深度解析AR远程专家协助系统在工业4.0时代的变革力量
人工智能·ar
名不经传的养虾人8 分钟前
从0到1:企业级AI项目迭代日记 Vol.31|可视化、可编辑、可脱敏、可隔离——企业系统接管的四个“可”
人工智能·ai编程·ai工作流·企业ai
是梦终空9 分钟前
计算机源码274—基于深度学习的中医舌象智能识别与健康管理系统(源代码+数据库+12000字论文)
人工智能·python·深度学习·opencv·django·vue·springboot