大模型面试题46：在训练7B LLM时，如果使用AdamW优化器，那么它需要的峰值显存是多少？

对小白来说，先不用记公式，核心先理解：训练7B模型+AdamW时，显存不是只存"模型参数"，而是要存4类东西，其中AdamW的优化器状态是最大头：

显存占用项	白话解释	占比/量级
AdamW优化器状态（核心）	给每个参数记2个"账本"： ✅ m：记录参数"历史更新速度"（一阶动量） ✅ v：记录参数"历史更新速度的平方"（二阶动量）（为保证精度，这两个账本必须用FP32存储）	最大头（≈56GB）
模型参数本身	7B模型的核心权重（训练常用FP16半精度，比FP32省一半显存）	≈14GB（FP16）
梯度（Gradient）	反向传播时计算的"参数调整方向"，精度和模型参数一致	≈14GB（FP16）
临时计算张量	前向/反向传播的中间结果（比如注意力矩阵），峰值时会叠加占用	5~15GB

先给结论：无任何优化的纯全量微调，7B+AdamW的理论峰值显存≈80~90GB（单卡）；但实际训练中用了优化技巧，峰值会大幅降低。

核心三项相加（优化器状态+模型参数+梯度）：

56GB（AdamW） + 14GB（模型） + 14GB（梯度） = 84GB

再加上临时张量（5~15GB），总峰值≈89 ~99GB（几乎没有单卡能满足）。

工业界训练7B模型一定会用以下显存优化技巧，最终峰值如下：

补充：梯度检查点是"牺牲一点速度换显存"，删掉大部分临时张量；ZeRO是分布式优化，把优化器状态/梯度分到多卡，是训大模型的标配。

为什么AdamW比SGD显存多？

SGD（随机梯度下降）只存"模型参数+梯度"，7B FP16训练SGD峰值≈30GB；而AdamW多了56GB的优化器状态，显存直接翻倍------这也是AdamW虽然效果好，但显存成本高的原因。
峰值显存不是"简单相加"

峰值出现在"反向传播结束、更新参数前"，此时模型参数、梯度、AdamW状态、临时张量同时占用显存；更新参数后，梯度会被释放，显存会下降10~20GB。
精度对显存的影响
- 模型参数：FP32（单精度）是FP16的2倍（7B FP32≈28GB）；
- AdamW状态：不管模型用啥精度，都必须用FP32（改不了，改了会丢精度）。