记一次pytorch训练loss异常的问题

记一次pytorch训练loss异常的问题

问题描述

使用mmdetection框架训练时,某项loss出现异常大的值,比如1781232349724294.000。这个问题只在多卡训练时才会出现。

解决方法

在确认target和predction没有问题后,发现是在dataset中的数据处理出现了问题。在dataset中的__getitem__函数中,对数据进行了处理,但是在处理时,将数据转换为了numpy格式,而没有将其他dtype转换为float32,导致了数据类型不匹配,从而导致了loss异常。将数据转换为float32后,问题解决。

numpy生成的数据默认为float64,而pytorch默认为float32,所以在处理数据时,需要注意数据类型的转换。

相关推荐
青啊青斯3 分钟前
python markdown转word【包括字体指定】
开发语言·python·word
Faker66363aaa4 分钟前
CornerNet-Hourglass104生产线检测与分类-1模型训练与部署
人工智能·分类·数据挖掘
YANshangqian5 分钟前
高性能AI聊天工具
人工智能
拾贰_C6 分钟前
【python | pytorch | warehouse】python库scipy与scikit-learn库不兼容?
pytorch·python·scipy
donecoding6 分钟前
前端AI开发:为什么选择SSE,它与分块传输编码有何不同?axios能处理SSE吗?
前端·人工智能
corpse20108 分钟前
trae下载依赖包特别慢!!!
开发语言·python
安徽正LU o561-6o623o78 分钟前
露-Y迷宫刺激器 AI人工智能Y迷宫
人工智能
诸神缄默不语10 分钟前
Windows系统无法直接用uv安装pyqt5,但可以用uv pip安装
python
说私域12 分钟前
基于开源AI智能名片链动2+1模式S2B2C商城小程序的社群初期运营策略研究
人工智能·小程序