不同参数规模大语言模型在不同微调方法下所需要的显存总结

原文来自DataLearnerAI官方网站:

不同参数规模大语言模型在不同微调方法下所需要的显存总结 | 数据学习者官方网站(Datalearner)https://www.datalearner.com/blog/1051703254378255

大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任务,识别特定的指令等。但是大模型的微调需要的显存较高,而且比较难以估计。与推理不同,微调过程微调方法的选择以及输入序列的长度、批次大小都会影响微调显存的需求。本文根据LLaMA Factory的数据总结一下大模型微调的显存要求。

在此前的文章中,我们已经解释了大模型推理和显存之间的估算方法:需要多少GPU显存才能运行预训练大语言模型?大语言模型参数规模与显存大小的关系估算方法~。即大模型推理显存约等于模型参数乘以2,而微调则只给了方法没有具体公式。

不同参数规模的大模型在不同微调方法下所需的显存大小,十分有参考意义:

微调方法 模型精度 70亿参数模型 130亿参数模型 300亿参数模型 650亿参数模型 8x7B(MoE)
Full 16 160GB 320GB 600GB 1200GB 1000GB
Freeze 16 20GB 40GB 120GB 240GB 200GB
LoRA 16 16GB 32GB 80GB 160GB 120GB
QLoRA 8 10GB 16GB 40GB 80GB 80GB
QLoRA 4 6GB 12GB 24GB 48GB 32GB

这里的微调方法介绍参考和数据来源见原文:不同参数规模大语言模型在不同微调方法下所需要的显存总结 | 数据学习者官方网站(Datalearner)

这里比较重要的参考是8×7B的MoE模型。这个显然就是前段时间刚刚发布的Mixtral大模型(即Mistral 8×7B MoE,详情参考:MistralAI的混合专家大模型Mistral-7B×8-MoE详细介绍,效果超过LLaMA2-70B和GPT-3.5,推理速度快6倍)。这个模型实际参数450亿,每次推理只会激活120亿的参数。这个模型在微调的时候需要的显存大小和450亿参数规模的模型相当。也就是说,MoE最大的优点应该是提升推理速度。推理现存与微调显存实际上不会有什么优势(根据实际测试,Mixtral 8×7B MoE推理最少也要90多G的显存)。如果使用QLoRA方法,那么显存大小会显著降低。不过,这也会降低一点精度。

原文来自DataLearnerAI:不同参数规模大语言模型在不同微调方法下所需要的显存总结 | 数据学习者官方网站(Datalearner)

相关推荐
chinesegf几秒前
构建高效工具调用Prompt的极简范例
人工智能·自动化
小柒儿3364 分钟前
生物计算:AI与生物技术融合,重构医药研发与生命健康产业逻辑
人工智能·重构
沈麽鬼7 分钟前
今天刚上线!Trae AI 创造力活动来了,程序员 / 设计师直接薅满福利
人工智能·ai编程·trae
oscar9998 分钟前
AI 测试用例生成:在 Katalon True Platform 中从需求直达执行
人工智能·测试用例·katalon
子午8 分钟前
从水果识别到行业落地:基于 千问Qwen2.5-VL、LoRA 微调与本地部署的多模态 AI 项目实践
人工智能
Prowler_925611 分钟前
创新项目实训博客(十一):大模型智能标题生成与多级降维兜底策略
人工智能·flutter·aigc
zhuhai_xigedian11 分钟前
物联网技术在源网荷储系统中的创新应用
大数据·运维·人工智能·区块链·能源
闵孚龙12 分钟前
《PyTorch 深度修炼》优化器:参数到底是怎么被更新的
人工智能·pytorch·python
GEO索引未来13 分钟前
AIIA可信GEO专题研讨会召开/AI全面加入618“大战”/谷歌重拳治理“AI投毒”
大数据·人工智能·gpt·chatgpt
朱大喜17 分钟前
可视化图表选型:如何选对图,不让数据“撒谎”
人工智能