分布式微调大模型 - 分布式微调大模型技术,学习,经验文章

忧郁的橙子.

2 个月前

11-Xtuner具体使用以及LLama Factory与Xtuner多卡微调大模型训练前500轮训练后版本：0.2.0存在回退到0.2.0rc0版本，注意这个版本的依赖固定模型规模爆炸：现代大模型（如GPT-3、 LLaMA等）参数量达千亿级别，单卡GPU无法存储完整模型。