技术栈

梯度裁剪

All The Way North-
8 天前
pytorch·深度学习·混合精度训练·大模型训练·梯度裁剪·梯度爆炸·混合精度训练/amp
大模型训练必修课:梯度裁剪(Gradient Clipping)从数学原理,到PyTorch工程实战全解析梯度裁剪(Gradient Clipping):大模型训练的“安全阀”与“稳定器”如果你之前没接触过梯度裁剪,那这篇文章将是你从零基础到精通实战的完整指南。在现代大模型(LLM)训练中,它不再是“可选项”,而是与学习率调度并列的必选项。
JOYCE_Leo16
2 年前
pytorch·python·深度学习·神经网络·梯度裁剪
PyTorch使用Tricks:梯度裁剪-防止梯度爆炸或梯度消失 !!前言1、对参数的梯度进行裁剪,使其不超过一个指定的值2、一个使用的torch.nn.utils.clip_grad_norm_ 例子
我是有底线的