深度学习八股文:混合精度训练过程出nan怎么办

其实如果是FP32的训练,基本的调试方法还是差不多,这里就讲一下混合精度训练过程中的nan。

混合精度训练使用较低的数值精度(通常是半精度浮点数,例如FP16)来加速模型训练,但在一些情况下,可能会引发数值不稳定性的问题,导致 NaN 的出现。处理混合精度训练中的 NaN 问题时,可以考虑以下步骤:

数值检查: 在训练过程中,定期检查模型参数、梯度等是否包含 NaN 或 Inf(无穷大)值。你可以在训练循环中添加断言语句,及时发现异常值

复制代码
assert not torch.isnan(model.parameters()).any(), "Model parameters contain NaN!"

梯度缩放(Gradient Scaling): 在混合精度训练中,通常会使用梯度缩放来抵消使用较低精度带来的梯度范围减小的问题。你可以尝试调整梯度缩放的比例。

复制代码
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

注意,相比与前向出nan,混合精度训练会多一个梯度缩放的过程,这个是前向没有出nan的前提下实现的,影响的梯度更新:

前向计算过程中没有nan,loss算完后,乘以scale后导致inf,这时候再往后反向传播出nan了,那在梯度更新的时候就会在梯度更新前进行数值检查,check finite and unscale过程会去检查权重的梯度发现有nan或者inf就会跳过更新,此时就可以调整scale的值,把scale降低,然后跑下一个step的前向。如果scale调整后,乘以loss,没有inf,就调成功了,继续正常更新参数,如果还是inf就得继续调小scale

相关推荐
Juchecar18 小时前
翻译:软件开发的演进:从机器码到 AI 编排
人工智能
字节数据平台18 小时前
火山引擎发布Data Agent新能力,推动用户洞察进入“智能3.0时代”
大数据·人工智能
盈电智控18 小时前
体力劳动反而更难被AI取代?物联网科技如何守护最后的劳动阵地
开发语言·人工智能·python
也许是_18 小时前
大模型原理之深度学习与神经网络入门
人工智能·深度学习·神经网络
数智顾问18 小时前
(111页PPT)大型集团IT治理体系规划详细解决方案(附下载方式)
大数据·人工智能
海棠AI实验室18 小时前
AI代发货(DropShopping)革命:构建自动化电商帝国终极指南
运维·人工智能·自动化
谢景行^顾18 小时前
深度学习--激活函数
人工智能·python·机器学习
三千院本院19 小时前
LlaMA_Factory实战微调Qwen-LLM大模型
人工智能·python·深度学习·llama
ifeng091819 小时前
HarmonyOS实战项目:AI健康助手(影像识别与健康分析)
人工智能·华为·wpf·harmonyos
Aevget19 小时前
界面控件Telerik UI for WPF 2025 Q3亮点 - 集成AI编码助手
人工智能·ui·wpf·界面控件·ui开发·telerik