【调试Bug】网络在训练中输出NaN

首先情况是开始训练正常,网络也在更新,更新后网络就输出了NaN。调试过程:

1. 查看模型权重更新前后的值

复制代码
    print("更新前权重信息:")
    print(f"  权重均值: {fc2.weight.mean().item() if not torch.isnan(fc2.weight.mean()) else 'NaN'}")
    print(f"  最大值: {fc2.weight.max().item() if not torch.isnan(fc2.weight.max()) else 'NaN'}")
    print(f"  最小值: {fc2.weight.min().item() if not torch.isnan(fc2.weight.min()) else 'NaN'}\n")

    权重更新


    print("更新后权重信息:")
    print(f"  权重均值: {fc2.weight.mean().item() if not torch.isnan(fc2.weight.mean()) else 'NaN'}")
    print(f"  最大值: {fc2.weight.max().item() if not torch.isnan(fc2.weight.max()) else 'NaN'}")
    print(f"  最小值: {fc2.weight.min().item() if not torch.isnan(fc2.weight.min()) else 'NaN'}\n")

判断标准

  • 权重 / 偏置的绝对值如果超过1e4,可能导致输出过大。
  • 若训练中权重突然变得极大,说明可能存在梯度爆炸。

2. 发现权重更新前正常,更新后NaN

权重在参数更新后变成了NaN,这说明问题出在反向传播和参数更新环节(梯度计算或优化器步骤导致权重被更新为异常值)。

原因分析:

权重从正常数值突然变成NaN,几乎可以确定是梯度爆炸导致的:

  • 反向传播时计算出的梯度为NaN或极端大值(如1e20),优化器用这些异常梯度更新权重,直接导致权重变成NaN
  • 常见触发点:损失函数计算异常(如NaN损失)、输入数据极端值导致中间激活值爆炸、学习率过高放大梯度影响。

第一步 检查损失函数是否为NaN

如果损失本身输出是NaN,反向传播的梯度必然是NaN,直接导致权重更新异常。在反向传播前检查损失需要。

损失为NaN的常见原因:

  • 损失中包含log(0)(如nn.Softmax输出接近 0 时,torch.log(prob)会趋近于-inf

结果:发现正是损失函数torch.log输出了NaN。

3 解决

限制torch.log的值,NaN的问题得到了解决

相关推荐
编程武士13 分钟前
从50ms到30ms:YOLOv10部署中图像预处理的性能优化实践
人工智能·python·yolo·性能优化
max50060038 分钟前
基于Meta Llama的二语习得学习者行为预测计算模型
人工智能·算法·机器学习·分类·数据挖掘·llama
月疯2 小时前
OPENCV摄像头读取视频
人工智能·opencv·音视频
极客天成ScaleFlash2 小时前
极客天成让统一存储从云原生‘进化’到 AI 原生: 不是版本升级,而是基因重组
人工智能·云原生
王哥儿聊AI2 小时前
Lynx:新一代个性化视频生成模型,单图即可生成视频,重新定义身份一致性与视觉质量
人工智能·算法·安全·机器学习·音视频·软件工程
_pinnacle_2 小时前
打开神经网络的黑箱(三) 卷积神经网络(CNN)的模型逻辑
人工智能·神经网络·cnn·黑箱·卷积网络
Ada's2 小时前
深度学习在自动驾驶上应用(二)
人工智能·深度学习·自动驾驶
张较瘦_3 小时前
[论文阅读] 人工智能 + 软件工程 | 从“人工扒日志”到“AI自动诊断”:LogCoT框架的3大核心创新
论文阅读·人工智能·软件工程
lisw053 小时前
连接蓝牙时“无媒体信号”怎么办?
人工智能·机器学习·微服务
扫地的小何尚3 小时前
深度解析 CUDA-QX 0.4 加速 QEC 与求解器库
人工智能·语言模型·llm·gpu·量子计算·nvidia·cuda