LLaMa-Factory的继续训练(Resume Training)

1.修改总 epoch 数:例如我想在4个epoch后接着训4个,那么

num_train_epochs(训练轮数)从 4 修改为 8

2.增加参数:

找到最后一个checkpoint 文件夹的路径(例如 checkpoint-500)

--resume_from_checkpoint /path/to/your/checkpoint-xxx

位置放置在ouput_dir之后即可

bash 复制代码
output_dir: saves/qwen2_vl-2b_base/sft
resume_from_checkpoint: saves/qwen2_vl-2b_base/sft/checkpoint-500  # <--- 新增这行,顶格写

注意:model_name_or_path路径不变,checkpoint (断点) 里保存的是在底座基础上的"增量更新"(如果是 LoRA)或者"优化器状态",所以必须先加载底座,再加载断点数据覆盖上去。

要注意显卡数量(GPU Count)和第一次训练的数量一致。

相关推荐
多恩Stone4 小时前
【3D AICG 系列-6】OmniPart 训练流程梳理
人工智能·pytorch·算法·3d·aigc
江瀚视野4 小时前
多家银行向甲骨文断贷,巨头甲骨文这是怎么了?
大数据·人工智能
ccLianLian4 小时前
计算机基础·cs336·损失函数,优化器,调度器,数据处理和模型加载保存
人工智能·深度学习·计算机视觉·transformer
asheuojj4 小时前
2026年GEO优化获客效果评估指南:如何精准衡量TOP5关
大数据·人工智能·python
多恩Stone4 小时前
【RoPE】Flux 中的 Image Tokenization
开发语言·人工智能·python
callJJ4 小时前
Spring AI ImageModel 完全指南:用 OpenAI DALL-E 生成图像
大数据·人工智能·spring·openai·springai·图像模型
铁蛋AI编程实战4 小时前
2026 大模型推理框架测评:vLLM 0.5/TGI 2.0/TensorRT-LLM 1.8/DeepSpeed-MII 0.9 性能与成本防线对比
人工智能·机器学习·vllm
23遇见4 小时前
CANN ops-nn 仓库高效开发指南:从入门到精通
人工智能
SAP工博科技4 小时前
SAP 公有云 ERP 多工厂多生产线数据统一管理技术实现解析
大数据·运维·人工智能
芷栀夏4 小时前
CANN ops-math:异构计算场景下基础数学算子的深度优化与硬件亲和设计解析
人工智能·cann