LLaMa-Factory的继续训练(Resume Training)

1.修改总 epoch 数:例如我想在4个epoch后接着训4个,那么

num_train_epochs(训练轮数)从 4 修改为 8

2.增加参数:

找到最后一个checkpoint 文件夹的路径(例如 checkpoint-500)

--resume_from_checkpoint /path/to/your/checkpoint-xxx

位置放置在ouput_dir之后即可

bash 复制代码
output_dir: saves/qwen2_vl-2b_base/sft
resume_from_checkpoint: saves/qwen2_vl-2b_base/sft/checkpoint-500  # <--- 新增这行,顶格写

注意:model_name_or_path路径不变,checkpoint (断点) 里保存的是在底座基础上的"增量更新"(如果是 LoRA)或者"优化器状态",所以必须先加载底座,再加载断点数据覆盖上去。

要注意显卡数量(GPU Count)和第一次训练的数量一致。

相关推荐
fa_lsyk5 小时前
Claude Codde 入门教程—— 从零到独立完成项目
人工智能
elirlove15 小时前
AI制作视频的关键点:从模型到工作流的完整技术解析
人工智能·音视频
不爱土豆唯爱马铃薯5 小时前
MonkeyCode 用户邀请计划现已正式升级 [特殊字符][特殊字符]
人工智能
小丶舟5 小时前
Claude Fable 5首发深度解析:SWE-Bench甩GPT-5.5近20分,开发者上手的5个关键细节
人工智能·gpt
小糖学代码5 小时前
机器学习:7.支持向量机(SVM)下
人工智能·机器学习·支持向量机
码农小旋风5 小时前
Claude Fable 5 和 Opus 4.8 怎么选:性能、价格和场景一次讲清
人工智能·chatgpt·claude
IT_陈寒5 小时前
Java的ArrayList扩容把我坑惨了,原来是这样搞的
前端·人工智能·后端
运维小子5 小时前
Codex 完整指南(一):OpenAI 的全能 AI 工作台
人工智能·chatgpt
XINVRY-FPGA5 小时前
XC7A100T-2CSG324I AMD Xilinx Artix-7 FPGA
arm开发·人工智能·嵌入式硬件·神经网络·fpga开发·硬件工程·fpga
Cloud_Shy6185 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第五章 Item 36 - 39)
开发语言·人工智能·笔记·python