记一次pytorch训练loss异常的问题

记一次pytorch训练loss异常的问题

问题描述

使用mmdetection框架训练时,某项loss出现异常大的值,比如1781232349724294.000。这个问题只在多卡训练时才会出现。

解决方法

在确认target和predction没有问题后,发现是在dataset中的数据处理出现了问题。在dataset中的__getitem__函数中,对数据进行了处理,但是在处理时,将数据转换为了numpy格式,而没有将其他dtype转换为float32,导致了数据类型不匹配,从而导致了loss异常。将数据转换为float32后,问题解决。

numpy生成的数据默认为float64,而pytorch默认为float32,所以在处理数据时,需要注意数据类型的转换。

相关推荐
张较瘦_13 分钟前
[论文阅读] AI赋能 | 当AI看懂交通摄像头:多模态大模型零样本检测的实战报告
论文阅读·人工智能
cxr82819 分钟前
BMAD框架实践:掌握story-checklist提升用户故事质量
前端·人工智能·agi·智能体·ai赋能
Dongsheng_20192 小时前
【汽车篇】AI深度学习在汽车零部件外观检测——机电轴承的应用
人工智能·深度学习·汽车
江瀚视野2 小时前
汽车价格战全面熄火了?不卷价格该卷什么?
人工智能·自动驾驶
zl21878654482 小时前
Playwright同步、异步、并行、串行执行效率比较
开发语言·python·测试工具
larance2 小时前
asyncio数据流
python
资讯全球3 小时前
2025年智慧差旅平台推荐
人工智能
en-route3 小时前
从零开始学神经网络——LSTM(长短期记忆网络)
人工智能·深度学习·lstm
eqwaak03 小时前
Flask实战指南:从基础到高阶的完整开发流程
开发语言·后端·python·学习·flask