Python中PyTorch模型如何显存优化_使用梯度检查点减少显存占用

梯度检查点是通过只保存部分中间激活值、反向时重算前向来节省显存的技术,能降低40%~60%显存但增加15%~30%训练时间,要求模块前向可重入且无副作用。梯度检查点是什么,为什么能省显存梯度检查点(torch.utils.checkpoint.checkpoint)不是"不存梯度",而是"不存中间激活值"。反向传播时需要前向计算的中间结果来算梯度,常规训练会把所有层的输出全存着,显存占用和网络深度线性增长;而检查点只存部分层的输入,反向时临时重跑对应前向------用时间换空间。典型节省比例:ResNet-50 训练 batch size 可从 16 提到 32,ViT-L 类模型显存常降 40%~60%。但注意:它只对**前向可重入、无副作用**的模块有效,比如不能包裹含 nn.Dropout(训练态随机行为不可复现)或修改全局状态的自定义层。怎么加 checkpoint,最简安全写法别直接套整个模型,先从单个 nn.Sequential 或自定义 forward 块开始。PyTorch 官方推荐方式是用 checkpoint.checkpoint 包裹函数调用,而不是用装饰器(后者容易隐式捕获非 tensor 参数)。必须确保被包裹函数只接收 Tensor 参数,且不依赖闭包变量(如 self.training)若模块含 training 切换逻辑(如 Dropout),改用 checkpoint.checkpoint_sequential 或手动拆分 + torch.no_grad() 重算示例:对 Transformer 层列表做检查点from torch.utils.checkpoint import checkpointdef custom_forward(x, layer): return layer(x)# 替换原循环:x = layer(x)x = checkpoint(custom_forward, x, layer)常见报错和绕过方法RuntimeError: Trying to backward through the graph a second time:说明 checkpoint 内部用了被复用的 Tensor(比如共享 embedding),或者你在检查点外又对同一张量调了 backward()。根本原因是计算图被意外保留。 VWO 一个A/B测试工具

相关推荐
Solis程序员1 分钟前
MongoDB 超全入门到实战:从原理、CRUD到高可用架构
数据库·mongodb·架构
Ulyanov4 分钟前
深入QML-Python通信 构建响应式交互界面的桥梁设计:QML+PySide6现代开发入门(五)
开发语言·python·算法·交互·qml·系统仿真
yurenpai(27届找实习中)6 分钟前
redis_点评(26.附近店铺——实现附近商家功能)
数据库·spring boot·redis
BullSmall8 分钟前
异构数据库(通俗 + 核心知识点)
数据库
浩瀚之水_csdn8 分钟前
Python 推导式详解:从入门到精通
python
zz345729811311 分钟前
函数:python与c语言
c语言·开发语言·python
Rick199311 分钟前
索引下推(ICP):在已经用到联合索引的前提下,减少回表次数,提升查询效率
数据库
金海境科技14 分钟前
实践分享!虚拟化数据恢复前三标准
数据库
li星野19 分钟前
LLMLingua:用小型模型“剪枝”大语言模型提示词,让长文本不再昂贵
人工智能·python·学习·语言模型·剪枝
不剪发的Tony老师22 分钟前
RedisME:一个现代化、轻量级Redis管理工具
数据库·redis