技术栈
gradscaler
西西弗Sisyphus
3 个月前
人工智能
·
深度学习
·
大模型
·
autocast
·
gradscaler
调试和优化大型深度学习模型 - 4 混合精度训练中的关键组件 autocast 和 GradScaler
flyfishPyTorch 版本 2.4.0在混合精度训练中,autocast 和 GradScaler 通常是一起使用的。autocast 提供了操作的半精度计算,而 GradScaler 通过缩放损失来防止可能发生的梯度下溢。结合使用它们,可以同时提高计算效率和数值稳定性