技术栈
梯度累积
Yongqiang Cheng
9 小时前
pytorch
·
梯度累积
·
gradient
·
accumulation
·
梯度累加
Gradient Accumulation (梯度累积 / 梯度累加) in PyTorch
Gradient accumulation, Gradient checkpointing and local SGD, Mixed precision training https://projector-video-pdf-converter.datacamp.com/37998/chapter3.pdf
Iareges
1 年前
python
·
深度学习
·
算法
·
自然语言处理
·
梯度累积
·
梯度检查点
浅谈梯度累积(Gradient Accumulation)和梯度检查点(Gradient Checkpointing)
在讨论梯度累积技术之前,让我们先回顾一些 PyTorch 的基础知识,特别是关于模型的梯度计算和参数更新。以下是一个简单的线性模型示例:
我是有底线的