记一次pytorch训练loss异常的问题

记一次pytorch训练loss异常的问题

问题描述

使用mmdetection框架训练时,某项loss出现异常大的值,比如1781232349724294.000。这个问题只在多卡训练时才会出现。

解决方法

在确认target和predction没有问题后,发现是在dataset中的数据处理出现了问题。在dataset中的__getitem__函数中,对数据进行了处理,但是在处理时,将数据转换为了numpy格式,而没有将其他dtype转换为float32,导致了数据类型不匹配,从而导致了loss异常。将数据转换为float32后,问题解决。

numpy生成的数据默认为float64,而pytorch默认为float32,所以在处理数据时,需要注意数据类型的转换。

相关推荐
wswlqsss3 分钟前
第四十五天打卡
人工智能·深度学习
Likeadust8 分钟前
视频汇聚平台EasyCVR“明厨亮灶”方案筑牢旅游景区餐饮安全品质防线
网络·人工智能·音视频
天翼云开发者社区21 分钟前
总决赛定档!“天翼云息壤杯”高校AI大赛巅峰之战即将打响!
人工智能·ai大赛
亚马逊云开发者31 分钟前
Amazon Bedrock 助力 SolveX.AI 构建智能解题 Agent,打造头部教育科技应用
人工智能
搏博38 分钟前
将图形可视化工具的 Python 脚本打包为 Windows 应用程序
开发语言·windows·python·matplotlib·数据可视化
硅基茶水间1 小时前
「轻量级AI编程桌面软件」代码上下文一键搞定|已开源
python
新德通科技1 小时前
新德通科技:以创新驱动光通信一体化发展,赋能全球智能互联
人工智能
__星辰大海__1 小时前
NeRF PyTorch 源码解读 - NDC空间
人工智能
Java学术趴1 小时前
RNN指南:从梯度消失到LSTM魔改,一文说透RNN/LSTM/GRU的隐藏优势!
人工智能
coderCatIce1 小时前
刘二大人第2讲-线性模型-带代码以及作业答案
人工智能·机器学习