记一次pytorch训练loss异常的问题

记一次pytorch训练loss异常的问题

问题描述

使用mmdetection框架训练时,某项loss出现异常大的值,比如1781232349724294.000。这个问题只在多卡训练时才会出现。

解决方法

在确认target和predction没有问题后,发现是在dataset中的数据处理出现了问题。在dataset中的__getitem__函数中,对数据进行了处理,但是在处理时,将数据转换为了numpy格式,而没有将其他dtype转换为float32,导致了数据类型不匹配,从而导致了loss异常。将数据转换为float32后,问题解决。

numpy生成的数据默认为float64,而pytorch默认为float32,所以在处理数据时,需要注意数据类型的转换。

相关推荐
蹦蹦跳跳真可爱5891 小时前
Python----计算机视觉处理(Opencv:道路检测之提取车道线)
python·opencv·计算机视觉
Tanecious.3 小时前
机器视觉--python基础语法
开发语言·python
guanshiyishi3 小时前
ABeam 德硕 | 中国汽车市场(2)——新能源车的崛起与中国汽车市场机遇与挑战
人工智能
ALe要立志成为web糕手3 小时前
SESSION_UPLOAD_PROGRESS 的利用
python·web安全·网络安全·ctf
极客天成ScaleFlash3 小时前
极客天成NVFile:无缓存直击存储性能天花板,重新定义AI时代并行存储新范式
人工智能·缓存
澳鹏Appen4 小时前
AI安全:构建负责任且可靠的系统
人工智能·安全
Tttian6224 小时前
Python办公自动化(3)对Excel的操作
开发语言·python·excel
蹦蹦跳跳真可爱5895 小时前
Python----机器学习(KNN:使用数学方法实现KNN)
人工智能·python·机器学习
视界宝藏库5 小时前
多元 AI 配音软件,打造独特音频体验
人工智能
独好紫罗兰6 小时前
洛谷题单2-P5713 【深基3.例5】洛谷团队系统-python-流程图重构
开发语言·python·算法