训练的Loss和输出突然全是nan【小白找bug】

某一天,我重新跑了两天之前正常跑的代码,训练的Loss和输出突然全是nan(从epoch0就是nan了),我惊慌失措。我的代码是关于微调llama的,于是我开始找问题,在输入进入llama之前都是没问题的,进入llama的输出变成了nan,所以有可能是llama本身的数值有问题,我是用下载好的llama权重文件初始化的,可以使用简单的程序验证一下是不是下载的权重文件的问题:

python 复制代码
import torch
import transformers
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import pipeline


model_dir = "/llama/"  # 权重文件的路径

model = LlamaForCausalLM.from_pretrained (model_dir)
tokenizer = LlamaTokenizer.from_pretrained (model_dir)

print(type(model))
for name, param in model.named_parameters():
    if torch.isnan(param).any():
        print(f"Parameter {name} contains NaN")
    if torch.isinf(param).any():
        print(f"Parameter {name} contains Inf")
    if param.abs().max() > 1e6:  # 值过大可能导致数值溢出
        print(f"Parameter {name} has very large values: {param.abs().max()}")

pipeline = transformers.pipeline (
          "text-generation",
          model=model,
          tokenizer=tokenizer,
          torch_dtype=torch.float16,
          device_map="auto",
          )

sequences = pipeline (
          'I have tomatoes, basil and cheese at home. What can I cook for dinner?\n',
          do_sample=True,
          top_k=10,
          num_return_sequences=1,
          eos_token_id=tokenizer.eos_token_id,
          max_length=400,
          )

for seq in sequences:
    print (f"{seq ['generated_text']}")

运行这个程序后,有的param确实是NaN和Inf,也报错了。但是我刚下载完llama权重时候运行这个程序是没问题的。

确认就是llama权重文件的问题。

只能使用convert_llama_weights_to_hf.py再转换一份权重文件了。运行这个代码的时候又报错了:

python 复制代码
ImportError: cannot import name 'TikTokenConverter' from 'transformers.convert_slow_tokenizer'

于是只好重新安装transformers,不报错了

python 复制代码
pip install git+https://github.com/huggingface/transformers

注意安装transformer的命令并不是pip install transformers==xxx版本,我一开始这样安装都没解决报错。

后记:很奇怪,可能是服务器磁盘坏了一小块?我不理解,两天前没毛病,两天后全是毛病,心累,哭/(ㄒoㄒ)/~~

相关推荐
Pyeako15 小时前
opencv计算机视觉--图形旋转&图形可视化&均衡化
人工智能·python·opencv·计算机视觉·图形旋转·图形可视化·均衡化
人工智能AI技术15 小时前
【Agent从入门到实践】28 开发第一个Agent——开发准备:环境搭建(Python、依赖库、大模型API密钥)
人工智能·python
skywalk816315 小时前
2026.1月llama.cpp的最新进展:在AIStudio推理Llama-3-8B-Instruct-Coder.Q6_K.gguf模型
llama·lfm2.5-1.2b
逍遥德15 小时前
Java Stream Collectors 用法
java·windows·python
SNAKEpc1213815 小时前
PyQtGraph中的PlotWidget详解
python·qt·pyqt
布局呆星15 小时前
魔术方法与魔术变量
开发语言·python
zhangfeng113315 小时前
VS Code,trae-cn qcoder cursor krio 装了 Markdown 插件却打不开预览
人工智能·python
喵手15 小时前
Python爬虫零基础入门【第七章:动态页面入门(Playwright)·第2节】动态列表:滚动加载/点击翻页(通用套路)!
爬虫·python·爬虫实战·playwright·python爬虫工程化实战·零基础python爬虫教学·动态列表
火云洞红孩儿15 小时前
使用Python开发游戏角色识别!(游戏辅助工具开发入门)
人工智能·python·游戏
茶栀(*´I`*)15 小时前
PyTorch实战:手机价格区间预测(从64%到91%的模型优化之路)
pytorch·深度学习·神经网络