记一次pytorch训练loss异常的问题

lyyiangang2025-02-27 22:42

记一次pytorch训练loss异常的问题

问题描述

使用mmdetection框架训练时，某项loss出现异常大的值，比如1781232349724294.000。这个问题只在多卡训练时才会出现。

解决方法

在确认target和predction没有问题后，发现是在dataset中的数据处理出现了问题。在dataset中的__getitem__函数中，对数据进行了处理，但是在处理时，将数据转换为了numpy格式，而没有将其他dtype转换为float32，导致了数据类型不匹配，从而导致了loss异常。将数据转换为float32后，问题解决。

numpy生成的数据默认为float64，而pytorch默认为float32，所以在处理数据时，需要注意数据类型的转换。

上一篇：复现一篇关于图像处理和计算机视觉中目标检测模型算法论文的详细步骤及示例代码

下一篇：【单片机】MSP430&MSP432入门

热门推荐

01UV安装并设置国内源 02【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04KGG转MP3工具|非KGM文件|解密音频 052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE Rules 实践：为项目配置 6A 工作流