【AI学习】LLaMA模型的微调成本有几何?

在前面文章《LLaMA 系列模型的进化(二)》中提到了Stanford Alpaca模型。

Stanford Alpaca 基于LLaMA (7B) 进行微调,通过使用 Self-Instruct 方法借助大语言模型进行自动化的指令生成,Stanford Alpaca 生成了 52K 条指令遵循样例数据(Alpaca-52K)用于训练。

据说,这个训练成本不到600美元。那这个成本是如何计算的呢?
训练成本 :在8个80GB A100 上训练了3个小时,不到100美元;
数据成本 :生成数据使用OpenAl的API,500美元。这里就是通过使用 Self-Instruct 方法,使用了OpenAl的接口的调用成本。

在前面文章《英伟达ChipNeMo,一个领域大模型的训练案例》里,介绍了领域大模型的训练过程。如下图:

对应的训练时长为:

使用 128 个 A100 GPU 进行了训练。ChipNeMo 的领域适配预训练成本(包括基于领域数据的继续预训练和SFT),具体见下表,单位是A100 GPU hours

ChipNeMo 的领域适配预训练成本,对比从头开始预训练基础模型的总成本不到 1.5%。

以LLaMa 7B模型的训练来说,总训练时长=2710,按照前面"在8个80GB A100 上训练了3个小时,不到100美元"的成本折算,成本应该小于11300美金

13B模型,总训练时长=5100,成本应该小于21250美金

70B模型,总训练时长=21340,成本应该小于88920美金

至于数据,ChipNeMo 的领域适配预训练需要24B以上的数据,这个可能与相应的数据积累有很大关系,不好计算了。

相关推荐
王莽v218 小时前
OmniQuant
人工智能
阿_旭18 小时前
YOLO与SAM实战:目标检测与图像分割的高效融合方案
人工智能·yolo·目标检测·sam
CodeLinghu18 小时前
「 LLM实战 - 企业 」企业级LangGraph实战项目搭建
人工智能·llm
jackylzh18 小时前
PyCharm中测试、训练YOLO方法
人工智能·yolo·计算机视觉
说私域18 小时前
开源活动报名AI智能客服AI智能名片预约服务小程序在精神服务中的应用场景研究
人工智能·小程序
d111111111d18 小时前
STM32如何通过寄存器直接禁止EXTI0中断
笔记·stm32·单片机·嵌入式硬件·学习
sandwu18 小时前
AI自动化测试(二)—— Playwright-MCP搭建自动化UI测试(browser-use&midscene对比)
人工智能·ui·自动化·playwright
DeepVis Research18 小时前
【Autonomous Driving/Sim】2026年度自动驾驶极端场景与车辆动力学仿真基准索引 (Benchmark Index)
人工智能·物联网·机器学习·自动驾驶·数据集
xixixi7777719 小时前
SoC芯片本质——“系统级集成”
人工智能·机器学习·架构·pc·soc·集成·芯片
lisw0519 小时前
工程软件化概述!
人工智能·科技·机器学习