一、白话入门:先搞懂"显存都花在哪了"
对小白来说,先不用记公式,核心先理解:训练7B模型+AdamW时,显存不是只存"模型参数",而是要存4类东西,其中AdamW的优化器状态是最大头:
| 显存占用项 | 白话解释 | 占比/量级 |
|---|---|---|
| AdamW优化器状态(核心) | 给每个参数记2个"账本": ✅ m:记录参数"历史更新速度"(一阶动量) ✅ v:记录参数"历史更新速度的平方"(二阶动量) (为保证精度,这两个账本必须用FP32存储) | 最大头(≈56GB) |
| 模型参数本身 | 7B模型的核心权重(训练常用FP16半精度,比FP32省一半显存) | ≈14GB(FP16) |
| 梯度(Gradient) | 反向传播时计算的"参数调整方向",精度和模型参数一致 | ≈14GB(FP16) |
| 临时计算张量 | 前向/反向传播的中间结果(比如注意力矩阵),峰值时会叠加占用 | 5~15GB |
二、基础计算:不同场景下的峰值显存(小白必记)
先给结论:无任何优化的纯全量微调,7B+AdamW的理论峰值显存≈80~90GB(单卡);但实际训练中用了优化技巧,峰值会大幅降低。
1. 纯理论值(无任何优化,FP16训练)
核心三项相加(优化器状态+模型参数+梯度):
56GB(AdamW) + 14GB(模型) + 14GB(梯度) = 84GB
再加上临时张量(5~15GB),总峰值≈89 ~99GB(几乎没有单卡能满足)。
2. 实际训练值(带常用优化,小白最需要)
工业界训练7B模型一定会用以下显存优化技巧,最终峰值如下:
| 训练配置 | 单卡峰值显存 | 适用硬件 |
|---|---|---|
| FP16 + 梯度检查点 | 40~50GB | A100(80GB)单卡 |
| FP16 + 梯度检查点 + ZeRO-1 | 30~35GB | 主流配置(4卡3090也能训) |
| FP16 + 梯度检查点 + ZeRO-2 | 20~25GB | RTX 3090(24GB)单卡 |
| 加LoRA(低秩适配) | 10~15GB | RTX 4090(24GB)单卡 |
补充:梯度检查点是"牺牲一点速度换显存",删掉大部分临时张量;ZeRO是分布式优化,把优化器状态/梯度分到多卡,是训大模型的标配。
三、进阶细节:小白容易踩坑的点
-
为什么AdamW比SGD显存多?
SGD(随机梯度下降)只存"模型参数+梯度",7B FP16训练SGD峰值≈30GB;而AdamW多了56GB的优化器状态,显存直接翻倍------这也是AdamW虽然效果好,但显存成本高的原因。
-
峰值显存不是"简单相加"
峰值出现在"反向传播结束、更新参数前",此时模型参数、梯度、AdamW状态、临时张量同时占用显存;更新参数后,梯度会被释放,显存会下降10~20GB。
-
精度对显存的影响
- 模型参数:FP32(单精度)是FP16的2倍(7B FP32≈28GB);
- AdamW状态:不管模型用啥精度,都必须用FP32(改不了,改了会丢精度)。
总结
- 7B+AdamW的理论峰值显存(无优化)≈ 80 ~ 90GB,但实际训练中用梯度检查点/ZeRO等优化后,峰值可降到20~40GB;
- AdamW的显存大头是优化器状态(56GB FP32),这是它比其他优化器显存高的核心原因;
- 新手训练7B模型,优先用"FP16+梯度检查点+ZeRO-1/LoRA",能大幅降低显存需求(单卡10~35GB即可)。