【AI学习】LLaMA模型的微调成本有几何?

在前面文章《LLaMA 系列模型的进化(二)》中提到了Stanford Alpaca模型。

Stanford Alpaca 基于LLaMA (7B) 进行微调,通过使用 Self-Instruct 方法借助大语言模型进行自动化的指令生成,Stanford Alpaca 生成了 52K 条指令遵循样例数据(Alpaca-52K)用于训练。

据说,这个训练成本不到600美元。那这个成本是如何计算的呢?
训练成本 :在8个80GB A100 上训练了3个小时,不到100美元;
数据成本 :生成数据使用OpenAl的API,500美元。这里就是通过使用 Self-Instruct 方法,使用了OpenAl的接口的调用成本。

在前面文章《英伟达ChipNeMo,一个领域大模型的训练案例》里,介绍了领域大模型的训练过程。如下图:

对应的训练时长为:

使用 128 个 A100 GPU 进行了训练。ChipNeMo 的领域适配预训练成本(包括基于领域数据的继续预训练和SFT),具体见下表,单位是A100 GPU hours

ChipNeMo 的领域适配预训练成本,对比从头开始预训练基础模型的总成本不到 1.5%。

以LLaMa 7B模型的训练来说,总训练时长=2710,按照前面"在8个80GB A100 上训练了3个小时,不到100美元"的成本折算,成本应该小于11300美金

13B模型,总训练时长=5100,成本应该小于21250美金

70B模型,总训练时长=21340,成本应该小于88920美金

至于数据,ChipNeMo 的领域适配预训练需要24B以上的数据,这个可能与相应的数据积累有很大关系,不好计算了。

相关推荐
装不满的克莱因瓶几秒前
掌握感知器的学习原理
人工智能·python·神经网络·算法·ai·卷积神经网络
nashane4 分钟前
HarmonyOS 6学习:句柄泄漏(Fd Leak)从“崩溃现场”到“代码行”的精准狙击指南
学习·华为·音视频·harmonyos
卡梅德生物科技小能手5 分钟前
卡美德生物科普:LOXL2(赖氨酰氧化酶样蛋白2)
人工智能·经验分享·生活
Dragon Wu6 分钟前
AI视频创作笔记(五)短剧制作流程
人工智能·ai
一切皆是因缘际会8 分钟前
AI产业的深度变革与未来思辨
人工智能·ai·架构
不爱土豆唯爱马铃薯10 分钟前
MONKEYCODE 教程系列MC-025 | 实战AI客服机器人
人工智能·数据挖掘
keykey6.10 分钟前
用 PyTorch 训练图像分类器:完整实战
开发语言·人工智能·深度学习·机器学习
刘婉晴12 分钟前
【火山「AI安全攻防」】恶意Skill检测引擎设计思路分享
人工智能·安全
小王毕业啦22 分钟前
2009-2024年 各国清廉指数CPI(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
syounger32 分钟前
从遗留系统到AI运营:富士通转型折射日本企业的数字化再考
人工智能