【AI学习】LLaMA模型的微调成本有几何?

在前面文章《LLaMA 系列模型的进化(二)》中提到了Stanford Alpaca模型。

Stanford Alpaca 基于LLaMA (7B) 进行微调,通过使用 Self-Instruct 方法借助大语言模型进行自动化的指令生成,Stanford Alpaca 生成了 52K 条指令遵循样例数据(Alpaca-52K)用于训练。

据说,这个训练成本不到600美元。那这个成本是如何计算的呢?
训练成本 :在8个80GB A100 上训练了3个小时,不到100美元;
数据成本 :生成数据使用OpenAl的API,500美元。这里就是通过使用 Self-Instruct 方法,使用了OpenAl的接口的调用成本。

在前面文章《英伟达ChipNeMo,一个领域大模型的训练案例》里,介绍了领域大模型的训练过程。如下图:

对应的训练时长为:

使用 128 个 A100 GPU 进行了训练。ChipNeMo 的领域适配预训练成本(包括基于领域数据的继续预训练和SFT),具体见下表,单位是A100 GPU hours

ChipNeMo 的领域适配预训练成本,对比从头开始预训练基础模型的总成本不到 1.5%。

以LLaMa 7B模型的训练来说,总训练时长=2710,按照前面"在8个80GB A100 上训练了3个小时,不到100美元"的成本折算,成本应该小于11300美金

13B模型,总训练时长=5100,成本应该小于21250美金

70B模型,总训练时长=21340,成本应该小于88920美金

至于数据,ChipNeMo 的领域适配预训练需要24B以上的数据,这个可能与相应的数据积累有很大关系,不好计算了。

相关推荐
chatexcel1 分钟前
从Excel到AI,数据看板工具选型思路梳理
人工智能·信息可视化·excel
企业老板ai培训4 分钟前
从九尾狐AI案例解析智能矩阵的AI获客架构设计与实现
人工智能
小陈phd5 分钟前
langGraph从入门到精通(十一)——基于langgraph构建复杂工具应用的ReAct自治代理
前端·人工智能·react.js·自然语言处理
virtaitech6 分钟前
趋动科技OrionX社区版免费申请
大数据·人工智能·科技·免费·池化技术
玄同7657 分钟前
让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX :mcp-documents-reader 工具使用指南
人工智能·git·语言模型·gitee·github·ai编程·mcp
知识分享小能手10 分钟前
Oracle 19c入门学习教程,从入门到精通,Oracle数据库控制 —— 事务与并发控制详解(14)
数据库·学习·oracle
其美杰布-富贵-李12 分钟前
Spring Event 学习笔记
笔记·学习·spring·事件消息
张道宁17 分钟前
Dify:一站式AI应用开发平台全解析与Windows部署指南
人工智能
123_不打狼17 分钟前
词嵌入模型
人工智能·算法
深蕾半导体18 分钟前
SL1680端侧多路推理解决方案:一颗芯片,驱动8路视频实时AI分析
人工智能·音视频·边缘计算