技术栈
大模型权重文件
乌漆嘎嘎黑
7 小时前
pytorch
·
python
·
bug
·
llama
·
大模型权重文件
训练的Loss和输出突然全是nan【小白找bug】
某一天,我重新跑了两天之前正常跑的代码,训练的Loss和输出突然全是nan(从epoch0就是nan了),我惊慌失措。我的代码是关于微调llama的,于是我开始找问题,在输入进入llama之前都是没问题的,进入llama的输出变成了nan,所以有可能是llama本身的数值有问题,我是用下载好的llama权重文件初始化的,可以使用简单的程序验证一下是不是下载的权重文件的问题: