技术栈
混合精度训练/amp
All The Way North-
3 小时前
pytorch
·
深度学习
·
混合精度训练
·
大模型训练
·
梯度裁剪
·
梯度爆炸
·
混合精度训练/amp
大模型训练必修课:梯度裁剪(Gradient Clipping)从数学原理,到PyTorch工程实战全解析
梯度裁剪(Gradient Clipping):大模型训练的“安全阀”与“稳定器”如果你之前没接触过梯度裁剪,那这篇文章将是你从零基础到精通实战的完整指南。在现代大模型(LLM)训练中,它不再是“可选项”,而是与学习率调度并列的必选项。
我是有底线的