llamafactory gradient_checkpointing 梯度检查点通俗完整讲解

zhangfeng11332026-06-27 19:42

llamafactory gradient_checkpointing 梯度检查点通俗完整讲解

1. 原生不开启时（你现在 false 的状态）

模型走一遍前向传播，会把所有中间激活值全部存在显存里 。

作用：反向传播算梯度时，直接拿这些中间值计算，不用重新跑前向，速度快。

代价：序列越长、batch越大，中间激活占的显存爆炸，很容易冲到99%。

举个你场景的例子：cutoff_len=1024、bs=32，14B大模型，中间激活张量体积非常大，这就是你显存经常顶满的核心元凶。

2. 开启 gradient_checkpointing: true 做了什么？

核心逻辑：以少量重复计算，换取大幅显存节省

前向传播时，不保存全部中间激活，只存少量关键节点；
等到反向传播需要某一段中间数据时，重新再跑一遍对应区间的前向计算，现场算出激活；
全程不会一次性堆海量中间张量在显存里，显存峰值直接下降 30%～50%。

和你梯度累积完全无关

不管 gradient_accumulation_steps 是2还是4，梯度检查点只管「前向激活要不要存」，不影响梯度累加逻辑。

3. 优缺点

优点

大幅压低显存峰值，解决你 88%～99% 冲高、偶尔OOM崩溃问题；
同样显卡下，可以开更大 batch / 更长序列长度；
搭配 FlashAttention2 双重省显存，MI300 192GB 体验提升明显。

缺点

每一步训练会多跑一小段前向计算，训练速度大概慢 10%～20%；
CPU算力、读写开销轻微上涨，preprocessing_num_workers=8 完全能扛住。

4. 适配你当前场景怎么选

现状：显存经常冲到99%，波动极大
→ 建议开启 true，稳定性优先，轻微降速完全可接受；
如果你后续调小batch、且全程显存稳定80以内不报警，再切回 false 提速。

5. 补充关键细节（SFT训练专用）

use_cache: false 必须搭配梯度检查点一起用（你配置里已经开了，正确），训练阶段禁用KV缓存，额外省一大块显存；
LoRA微调场景下开启梯度检查点不影响LoRA梯度更新，只冻结基础模型部分重算，LoRA训练效果无损失；
和 bf16 / FlashAttention2 兼容，ROCm MI300无兼容性bug。

极简总结

不开：存所有中间激活 → 显存占用高、跑的快

开启：丢掉大部分中间激活，反向时临时重算 → 显存砍半、速度略慢

专门解决你长文本1024序列导致的显存爆满问题。

上一篇：第五篇｜主流王者优化器 Adam、AdamW 深度拆解

下一篇：重塑品牌内容价值链：集之互动的AI全链路解法，让每一帧创意都掷地有声

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新