【AI学习】LLaMA模型的微调成本有几何?

在前面文章《LLaMA 系列模型的进化(二)》中提到了Stanford Alpaca模型。

Stanford Alpaca 基于LLaMA (7B) 进行微调,通过使用 Self-Instruct 方法借助大语言模型进行自动化的指令生成,Stanford Alpaca 生成了 52K 条指令遵循样例数据(Alpaca-52K)用于训练。

据说,这个训练成本不到600美元。那这个成本是如何计算的呢?
训练成本 :在8个80GB A100 上训练了3个小时,不到100美元;
数据成本 :生成数据使用OpenAl的API,500美元。这里就是通过使用 Self-Instruct 方法,使用了OpenAl的接口的调用成本。

在前面文章《英伟达ChipNeMo,一个领域大模型的训练案例》里,介绍了领域大模型的训练过程。如下图:

对应的训练时长为:

使用 128 个 A100 GPU 进行了训练。ChipNeMo 的领域适配预训练成本(包括基于领域数据的继续预训练和SFT),具体见下表,单位是A100 GPU hours

ChipNeMo 的领域适配预训练成本,对比从头开始预训练基础模型的总成本不到 1.5%。

以LLaMa 7B模型的训练来说,总训练时长=2710,按照前面"在8个80GB A100 上训练了3个小时,不到100美元"的成本折算,成本应该小于11300美金

13B模型,总训练时长=5100,成本应该小于21250美金

70B模型,总训练时长=21340,成本应该小于88920美金

至于数据,ChipNeMo 的领域适配预训练需要24B以上的数据,这个可能与相应的数据积累有很大关系,不好计算了。

相关推荐
tq1086几秒前
知识的几何:在认知流形上寻找测地结构
人工智能
乐迪信息6 分钟前
乐迪信息:船舶AI逆行检测算法在单向航道中的强制管控
大数据·人工智能·安全·计算机视觉·目标跟踪
Ronaldinho Gaúch6 分钟前
权重初始化
深度学习·神经网络
刚刚觉醒的小菜鸡8 分钟前
Claude-code源码学习
学习·ai·cloudera·结对编程
羊小猪~~24 分钟前
LLM--BERT架构解析
人工智能·深度学习·大模型·llm·nlp·bert·ai算法
未来之窗软件服务28 分钟前
SenseVoicecpp ggml-hexagon.cpp大模型[AI人工智能(七十九)]—东方仙盟
人工智能·算法·仙盟创梦ide·东方仙盟
NOCSAH28 分钟前
统好AI数智平台CRM:用自然语言高效管理客户
大数据·人工智能·统好ai·数智一体化平台
仙人掌_lz29 分钟前
Antigravity突然完全停止工作、无响应或卡死的问题
人工智能
芙莉莲教你写代码29 分钟前
Flutter 框架跨平台鸿蒙开发 - 时区转换器应用
学习·flutter·华为·harmonyos
Are_You_Okkk_33 分钟前
AI编程赋能研发效率:核心能力与实践经验总结
人工智能·开源·ai编程