【AI学习】LLaMA模型的微调成本有几何?

在前面文章《LLaMA 系列模型的进化(二)》中提到了Stanford Alpaca模型。

Stanford Alpaca 基于LLaMA (7B) 进行微调,通过使用 Self-Instruct 方法借助大语言模型进行自动化的指令生成,Stanford Alpaca 生成了 52K 条指令遵循样例数据(Alpaca-52K)用于训练。

据说,这个训练成本不到600美元。那这个成本是如何计算的呢?
训练成本 :在8个80GB A100 上训练了3个小时,不到100美元;
数据成本 :生成数据使用OpenAl的API,500美元。这里就是通过使用 Self-Instruct 方法,使用了OpenAl的接口的调用成本。

在前面文章《英伟达ChipNeMo,一个领域大模型的训练案例》里,介绍了领域大模型的训练过程。如下图:

对应的训练时长为:

使用 128 个 A100 GPU 进行了训练。ChipNeMo 的领域适配预训练成本(包括基于领域数据的继续预训练和SFT),具体见下表,单位是A100 GPU hours

ChipNeMo 的领域适配预训练成本,对比从头开始预训练基础模型的总成本不到 1.5%。

以LLaMa 7B模型的训练来说,总训练时长=2710,按照前面"在8个80GB A100 上训练了3个小时,不到100美元"的成本折算,成本应该小于11300美金

13B模型,总训练时长=5100,成本应该小于21250美金

70B模型,总训练时长=21340,成本应该小于88920美金

至于数据,ChipNeMo 的领域适配预训练需要24B以上的数据,这个可能与相应的数据积累有很大关系,不好计算了。

相关推荐
深度学习lover几秒前
<数据集>yolo航拍军事目标识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·航拍军事目标识别
架构师老Y几秒前
002、Prompt基础:大模型交互的第一性原理
人工智能·python·prompt
不懂的浪漫1 分钟前
如何给 AI 一个高质量的新功能开发 Prompt:用 Superpower Skill 驱动完整开发流程
人工智能·prompt·vibe coding
架构师老Y1 分钟前
004、少样本与零样本Prompt:何时用、怎么用
大数据·人工智能·prompt
Hody917 分钟前
【XR硬件介绍】华为AI眼镜技术拆解:当鸿蒙AI遇上轻量化眼镜,开启第一视角智能时代
人工智能
做个文艺程序员8 分钟前
性能基准横评:DeepSeek V4 vs GPT-5.5,谁在哪个赛道领跑?
人工智能·gpt
Godspeed Zhao12 分钟前
具身智能中的传感器技术36——RGB-D相机1
人工智能·机器学习·深度相机·具身智能
sunneo12 分钟前
专栏B-产品心理学深度-05-伦理边界
人工智能·产品运营·产品经理·ai编程·ai-native
神仙别闹13 分钟前
基于GAN的恶意软件对抗样本生成
人工智能·神经网络·生成对抗网络
这张生成的图像能检测吗13 分钟前
(论文速读)结合噪声制导和全局特征的生成对抗网络生成了高质量的缺陷样本
人工智能·深度学习·神经网络·生成对抗网络·计算机视觉