深度学习八股文:混合精度训练过程出nan怎么办

其实如果是FP32的训练,基本的调试方法还是差不多,这里就讲一下混合精度训练过程中的nan。

混合精度训练使用较低的数值精度(通常是半精度浮点数,例如FP16)来加速模型训练,但在一些情况下,可能会引发数值不稳定性的问题,导致 NaN 的出现。处理混合精度训练中的 NaN 问题时,可以考虑以下步骤:

数值检查: 在训练过程中,定期检查模型参数、梯度等是否包含 NaN 或 Inf(无穷大)值。你可以在训练循环中添加断言语句,及时发现异常值

复制代码
assert not torch.isnan(model.parameters()).any(), "Model parameters contain NaN!"

梯度缩放(Gradient Scaling): 在混合精度训练中,通常会使用梯度缩放来抵消使用较低精度带来的梯度范围减小的问题。你可以尝试调整梯度缩放的比例。

复制代码
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

注意,相比与前向出nan,混合精度训练会多一个梯度缩放的过程,这个是前向没有出nan的前提下实现的,影响的梯度更新:

前向计算过程中没有nan,loss算完后,乘以scale后导致inf,这时候再往后反向传播出nan了,那在梯度更新的时候就会在梯度更新前进行数值检查,check finite and unscale过程会去检查权重的梯度发现有nan或者inf就会跳过更新,此时就可以调整scale的值,把scale降低,然后跑下一个step的前向。如果scale调整后,乘以loss,没有inf,就调成功了,继续正常更新参数,如果还是inf就得继续调小scale

相关推荐
sou_time几秒前
从 0 到 商用:AI Agent x SKILL x MCP 全栈实战教程:L2 高等篇:MCP 协议 + Spring AI + Agent 编排
java·人工智能·spring
Hy行者勇哥2 分钟前
2026 IT技术全景:算力超级周期下的三重重构与不可能三角,尤其需要关注“芯片自己设计自己”的情况
人工智能·重构
AC赳赳老秦3 分钟前
OpenClaw + 云数据库运维:自动备份、扩容、迁移 RDS/MySQL 云数据库
运维·开发语言·数据库·人工智能·python·mysql·openclaw
Tbisnic5 分钟前
AI大模型学习第十二天:Coze工作流与智能体开发
人工智能·python·ai·大模型·智能体·coze
m0_737302587 分钟前
OpenClaw:从对话到执行,开启行动型 AI 智能体新时代
人工智能
X54先生(人文科技)11 分钟前
《元创力》纪实录·卷宗2.2署名权、龙标悖论与社会人格的剥夺
人工智能·开源·ai写作·零知识证明
上海全爱科技16 分钟前
80℃高温+多路4K解码实测报告-全爱科技后羿智盒QA500A2-B
人工智能
abcy07121317 分钟前
python Statsmodels实例详解
人工智能
sunshine88518 分钟前
ISO 27001与PCI-DSS认证:财务数据安全如何反哺业财一体化落地?
大数据·人工智能
金融RPA机器人丨实在智能22 分钟前
跨境库存Agent测评:开源产品无法动态备货?实在Agent以ISSUT技术重塑跨境电商供需链
人工智能·ai·开源