技术栈

混合精度训练/amp

All The Way North-
3 小时前
pytorch·深度学习·混合精度训练·大模型训练·梯度裁剪·梯度爆炸·混合精度训练/amp
大模型训练必修课:梯度裁剪(Gradient Clipping)从数学原理,到PyTorch工程实战全解析梯度裁剪(Gradient Clipping):大模型训练的“安全阀”与“稳定器”如果你之前没接触过梯度裁剪,那这篇文章将是你从零基础到精通实战的完整指南。在现代大模型(LLM)训练中,它不再是“可选项”,而是与学习率调度并列的必选项。
我是有底线的