【AI学习】LLaMA模型的微调成本有几何?

在前面文章《LLaMA 系列模型的进化(二)》中提到了Stanford Alpaca模型。

Stanford Alpaca 基于LLaMA (7B) 进行微调,通过使用 Self-Instruct 方法借助大语言模型进行自动化的指令生成,Stanford Alpaca 生成了 52K 条指令遵循样例数据(Alpaca-52K)用于训练。

据说,这个训练成本不到600美元。那这个成本是如何计算的呢?
训练成本 :在8个80GB A100 上训练了3个小时,不到100美元;
数据成本 :生成数据使用OpenAl的API,500美元。这里就是通过使用 Self-Instruct 方法,使用了OpenAl的接口的调用成本。

在前面文章《英伟达ChipNeMo,一个领域大模型的训练案例》里,介绍了领域大模型的训练过程。如下图:

对应的训练时长为:

使用 128 个 A100 GPU 进行了训练。ChipNeMo 的领域适配预训练成本(包括基于领域数据的继续预训练和SFT),具体见下表,单位是A100 GPU hours

ChipNeMo 的领域适配预训练成本,对比从头开始预训练基础模型的总成本不到 1.5%。

以LLaMa 7B模型的训练来说,总训练时长=2710,按照前面"在8个80GB A100 上训练了3个小时,不到100美元"的成本折算,成本应该小于11300美金

13B模型,总训练时长=5100,成本应该小于21250美金

70B模型,总训练时长=21340,成本应该小于88920美金

至于数据,ChipNeMo 的领域适配预训练需要24B以上的数据,这个可能与相应的数据积累有很大关系,不好计算了。

相关推荐
吴佳浩几秒前
OpenClaw、Claude Code 等 Agent 为什么都选择 Node.js?
前端·人工智能·langchain
躺不平的小刘1 分钟前
视觉SLAM十四讲:全攻略 —— 逻辑脉络、学习路线与Ubuntu 18.04实践准备
linux·学习·ubuntu·slam
CoovallyAIHub2 分钟前
开源一周 6300+ Star!Andrew Ng 发布 Context Hub,专治 AI Agent 调用过时 API
人工智能·架构·github
witAI6 分钟前
**GLM5剧本拆解2025指南,解锁多模态创作新范式**
人工智能·python
Betelgeuse768 分钟前
DjangoBlog学习案例:掌握Django MVT架构与多应用协作实践
学习·架构·django
badhope10 分钟前
C语言二级考点全解析与真题精讲
c语言·开发语言·c++·人工智能·python·microsoft·职场和发展
爱吃的小肥羊12 分钟前
Claude Code Skills 资源大盘点:导航站 + GitHub 精选仓库全整理
人工智能·ai编程
ai产品老杨14 分钟前
终结协议孤岛:基于GB28181/RTSP融合网关的多品牌设备统一接入与边缘推流方案
人工智能·docker·架构·kubernetes·音视频
Dr_哈哈17 分钟前
给 AI 装技能包:skills 生态科普
人工智能
沉沙丶22 分钟前
模型预测控制专题(九)—— 进一步优化的方向
人工智能·电机控制·永磁同步电机·模型预测·预测控制·pmsm·无模型预测控制