记一次pytorch训练loss异常的问题

记一次pytorch训练loss异常的问题

问题描述

使用mmdetection框架训练时,某项loss出现异常大的值,比如1781232349724294.000。这个问题只在多卡训练时才会出现。

解决方法

在确认target和predction没有问题后,发现是在dataset中的数据处理出现了问题。在dataset中的__getitem__函数中,对数据进行了处理,但是在处理时,将数据转换为了numpy格式,而没有将其他dtype转换为float32,导致了数据类型不匹配,从而导致了loss异常。将数据转换为float32后,问题解决。

numpy生成的数据默认为float64,而pytorch默认为float32,所以在处理数据时,需要注意数据类型的转换。

相关推荐
wincheshe几秒前
AI Agent 开发 --- 上下文工程:概念与落地实践(四)
人工智能
biubiuibiu2 分钟前
探秘新飞机:从包装到起飞的全程指南
数据库·python
墨染天姬8 分钟前
【AI】强化学习(RL)和多智能体系统(MAS)
人工智能
racerun10 分钟前
跳转链接批量解析工具 python
开发语言·python
q_354888515312 分钟前
计算机毕业设计:Python当当网图书大数据分析平台 Django框架 爬虫 Pandas 可视化 大数据 大模型 书籍(建议收藏)✅
大数据·爬虫·python·机器学习·数据分析·django·课程设计
柯儿的天空16 分钟前
【OpenClaw 全面解析:从零到精通】第 013 篇:OpenClaw 安全机制深度解析——沙盒隔离、权限控制与安全最佳实践
人工智能·安全·ai作画·aigc·ai写作
知智前沿18 分钟前
什么是 RAG?通俗易懂讲解 + 核心流程梳理
人工智能·python
星爷AG I29 分钟前
15-5 身体感觉:疼觉和温觉(AGI基础理论)
人工智能·agi
云和数据.ChenGuang35 分钟前
鸿蒙餐饮系统:全场景智慧餐饮新范式
人工智能·机器学习·华为·数据挖掘·harmonyos·鸿蒙·鸿蒙系统
苍何39 分钟前
个人微信正式支持接入龙虾,附一键接入教程!
人工智能