【AI学习】LLaMA模型的微调成本有几何?

在前面文章《LLaMA 系列模型的进化(二)》中提到了Stanford Alpaca模型。

Stanford Alpaca 基于LLaMA (7B) 进行微调,通过使用 Self-Instruct 方法借助大语言模型进行自动化的指令生成,Stanford Alpaca 生成了 52K 条指令遵循样例数据(Alpaca-52K)用于训练。

据说,这个训练成本不到600美元。那这个成本是如何计算的呢?
训练成本 :在8个80GB A100 上训练了3个小时,不到100美元;
数据成本 :生成数据使用OpenAl的API,500美元。这里就是通过使用 Self-Instruct 方法,使用了OpenAl的接口的调用成本。

在前面文章《英伟达ChipNeMo,一个领域大模型的训练案例》里,介绍了领域大模型的训练过程。如下图:

对应的训练时长为:

使用 128 个 A100 GPU 进行了训练。ChipNeMo 的领域适配预训练成本(包括基于领域数据的继续预训练和SFT),具体见下表,单位是A100 GPU hours

ChipNeMo 的领域适配预训练成本,对比从头开始预训练基础模型的总成本不到 1.5%。

以LLaMa 7B模型的训练来说,总训练时长=2710,按照前面"在8个80GB A100 上训练了3个小时,不到100美元"的成本折算,成本应该小于11300美金

13B模型,总训练时长=5100,成本应该小于21250美金

70B模型,总训练时长=21340,成本应该小于88920美金

至于数据,ChipNeMo 的领域适配预训练需要24B以上的数据,这个可能与相应的数据积累有很大关系,不好计算了。

相关推荐
Loacnasfhia94 分钟前
卷烟爆珠气泡缺陷检测与分类_YOLO11创新点改进_C3k2与MLCA模块融合结构研究_1
人工智能·目标跟踪·分类
雨大王5125 分钟前
汽车制造数字化转型如何选择靠谱的产业链服务商?
人工智能
LaoZhangGong1237 分钟前
学习TCP/IP的第9步:客户端和服务端综合测试
网络·学习·tcp/ip
好物种草官7 分钟前
广州儿童眼镜店深度测评:6家主流品牌横向对比与选择策略
大数据·人工智能·经验分享
qwy71522925816311 分钟前
11-图像的缩放
人工智能·opencv·计算机视觉
工业相机定制与开发12 分钟前
云钥科技AI智能相机为图文印刷行业提供全流程检测解决方案
人工智能·数码相机
星火开发设计13 分钟前
格式化输入输出:控制输出精度与对齐方式
开发语言·c++·学习·算法·函数·知识
XX風19 分钟前
3.3 GMM (高斯混合模型)
人工智能·算法·机器学习
星爷AG I26 分钟前
9-24 视觉叙事(AGI基础理论)
前端·人工智能
量子-Alex27 分钟前
【大模型技术报告】ChatGLM大模型技术报告深度解读
人工智能