一次解决Pytorch训练时损失和参数出现Nan或者inf的经历

目前在做实验,参考了一个新的网络架构之后发现训练时损失出现Nan,参数了出现了inf的情况,先说说我的排查经历。

首先肯定是打印损失,损失是最容易出现Nan的,有各种原因,网上也有很多解决办法,我这里就不一一赘述了,大伙打开CSDN就一搜就有很多很全的

我的问题是在训练的中间参数中出现了inf,导致最终的损失为NaN或者inf

用下面的代码判断参数是否出现了NaN或者inf

python 复制代码
for i in range(5):   # exam是一个参数列表
    if torch.isnan(exeam[i]).any(): print('下表为{}的元素存在NaN!'.format(i))
    if torch.isinf(exeam[i]).any(): print('下表为{}的元素存在inf!'.format(i))

确定是哪些为NaN之后,直接上Relu或者归一化,很可惜,没用。。。

我参考的文章是这两篇

Vision Transformers for Single Image Dehazing

MixDehazeNet : Mix Structure Block For Image Dehazing Network
这两篇文章中都用到了soft reconstruction。现在我还搞不明白这东西是啥
模仿论文MixDehazeNet的代码,将生成的参数按照下面的代码计算下

python 复制代码
# feat是网络输出的结果,10通道
K, atp, tran, B = torch.split(feat, (1, 3, 3, 3), dim=1)

# x是网络的输入
atp = K * atp - atp + x
tran = K * tran - tran + x
x = K * x - B + x
# H, W是限定的尺寸
rgb = x[:, :, :H, :W]
atp = atp[:, :, :H, :W]
tran = tran[:, :, :H, :W]

这样一弄,问题就解决了

我分析了下原因,代码中的参数出现NaN是因为出现了除以0的情况,加上了soft reconstruction之后(类似于全局残差,关键是后面加上x的那个操作)是原先为0的参数变得不为0了,除以0的情况消失了,就不存在NaN啦。

我是做视觉方向的,全局残差机制(ResNet,FFA-Net)在视觉中可谓是有百利而无一害,所以这样加应该没问题的

疑问
soft reconstruction究竟是什么东西呢?网上的资料甚少,chatGPT也没有给出完全的定义。
还请知道的大佬不吝赐教。

相关推荐
DXM052112 小时前
第10期| 卷积神经网络CNN通俗详解:AI遥感的底层核心
人工智能·python·神经网络·机器学习·arcgis·cnn·文心一言
o561路6o623o712 小时前
陈,CPP条件位置偏爱系统
深度学习
装不满的克莱因瓶12 小时前
掌握空间注意力 STN 模型结构——让神经网络学会自动“看准位置”
人工智能·python·深度学习·神经网络·机器学习·ai
Together_CZ12 小时前
OpenCV 5.0 重磅发布:全面技术深度解析
图像处理·人工智能·opencv·计算机视觉·llm·dnn·推理
数据科学小丫12 小时前
算法:随机森林算法
算法·随机森林·机器学习
大江东去浪淘尽千古风流人物12 小时前
【MANO】参数化三维手部模型:从1000次扫描到通用手部重建的数学原理与工程实践
计算机视觉·数学建模·参数化模型·smpl·手部重建·mano·3d手部模型
chen_zn9512 小时前
GR00T N1.7源码学习(一):工程入口、模型结构与动作生成流程解析
深度学习·具身智能·vla·流匹配
2401_8856651912 小时前
从神经元到BP反向传播,零基础吃透神经网络底层原理
人工智能·python·深度学习·神经网络·opencv
山居秋暝LS12 小时前
【无标题】
人工智能·深度学习
Samson Bruce12 小时前
【初高中数学】
线性代数·数学·算法·机器学习