CUDA 版本下 Transformers 报错排查与解决办法

问题背景

最近在学习和训练多模态大模型时,执行训练脚本:

bash 复制代码
python train_pretrain_vlm.py --epochs 4

程序启动后立即报错:

text 复制代码
AttributeError: module 'torch' has no attribute 'float8_e8m0fnu'

随后引发:

text 复制代码
ModuleNotFoundError: Could not import module 'PreTrainedModel'

很多同学第一反应会认为是 CUDA 版本不兼容,实际上问题往往出在 PyTorch 与 Transformers 版本不匹配


一、先确认 GPU 与 CUDA 环境

训练前建议先确认服务器环境。

查看显卡驱动:

bash 复制代码
nvidia-smi

示例:

text 复制代码
Driver Version: 575.xx
CUDA Version: 13.0

这里显示的 CUDA Version 并不是实际安装的 CUDA Toolkit,而是当前驱动支持的最高 CUDA 版本。

查看 PyTorch 环境:

bash 复制代码
python -c "
import torch
print('Torch:',torch.__version__)
print('CUDA:',torch.version.cuda)
print('GPU Available:',torch.cuda.is_available())
"

输出:

text 复制代码
Torch: 2.5.1+cu124
CUDA: 12.4
GPU Available: True

说明:

  • 驱动支持 CUDA 13.0
  • PyTorch 使用 CUDA 12.4
  • GPU 可正常调用

这是完全正常的情况。


二、查看 Transformers 版本

查看当前安装版本:

bash 复制代码
python -c "import transformers; print(transformers.__version__)"

或者:

bash 复制代码
pip show transformers

我这里发现版本为:

text 复制代码
5.10.2

这个版本明显偏新。


三、错误原因分析

报错核心:

text 复制代码
torch.float8_e8m0fnu

来自:

text 复制代码
transformers/integrations/finegrained_fp8.py

新版 Transformers 在导入时尝试加载 FP8 相关功能:

python 复制代码
torch.float8_e8m0fnu

但当前 PyTorch:

text 复制代码
torch 2.5.1+cu124

并未提供该属性。

因此出现:

text 复制代码
AttributeError

最终导致:

text 复制代码
ModuleNotFoundError: Could not import module 'PreTrainedModel'

四、如何判断是不是版本兼容问题

执行:

bash 复制代码
pip list | grep -E "torch|transformers"

例如:

text 复制代码
torch           2.5.1+cu124
transformers    5.10.2

如果:

  • torch < 2.7
  • transformers > 5.x

大概率会出现类似问题。


五、推荐解决方案

最简单的方法:

降级 Transformers。

卸载:

bash 复制代码
pip uninstall -y transformers

安装稳定版本:

bash 复制代码
pip install transformers==4.51.3

验证:

bash 复制代码
python -c "import transformers; print(transformers.__version__)"

输出:

text 复制代码
4.51.3

即可。


六、推荐的大模型学习环境

当前较稳定的组合:

text 复制代码
Python        3.10~3.12
Torch         2.5.1+cu124
Transformers  4.51.3
Accelerate    最新稳定版
Safetensors   最新稳定版

安装命令:

bash 复制代码
pip install \
torch==2.5.1 \
torchvision==0.20.1 \
torchaudio==2.5.1 \
--index-url https://download.pytorch.org/whl/cu124

pip install \
transformers==4.51.3 \
accelerate \
safetensors

七、常用排查命令汇总

查看 GPU:

bash 复制代码
nvidia-smi

查看 CUDA Toolkit:

bash 复制代码
nvcc -V

查看 Torch:

bash 复制代码
python -c "
import torch
print(torch.__version__)
print(torch.version.cuda)
print(torch.cuda.is_available())
"

查看 Transformers:

bash 复制代码
python -c "
import transformers
print(transformers.__version__)
"

查看依赖:

bash 复制代码
pip list | grep -E "torch|transformers|accelerate|tokenizers"

八、经验总结

遇到大模型训练报错时,不要第一时间怀疑 CUDA。

建议按照以下顺序排查:

  1. GPU 是否可用
  2. CUDA Runtime 是否正常
  3. PyTorch 是否正常识别 GPU
  4. Transformers 版本是否过新
  5. Accelerate、PEFT 等依赖是否匹配

大部分「导入失败」「找不到属性」「PreTrainedModel 无法导入」的问题,本质上都是依赖版本不兼容导致的。

记住一句话:

CUDA 能识别 GPU,不代表 Transformers 一定兼容;大模型训练环境最重要的是整套依赖版本的匹配。

相关推荐
冬奇Lab7 小时前
Agent 系列(16):工具链设计——让 LLM 用对工具的五个原则
人工智能·llm·agent
weifengma-wish8 小时前
Transformer 注意力为什么用内积? 而不用余弦相识度和cor等
人工智能·深度学习·transformer
AndrewHZ8 小时前
【LLM技术全景】预训练与微调:大模型如何“学习“
人工智能·深度学习·大模型·llm·微调·预训练·rlhf
leeyi12 小时前
多租户隔离:一条 RLS 策略怎么防数据串
llm·agent
leeyi12 小时前
长期记忆:Agent 怎么“记住“用户
llm·agent
leeyi13 小时前
工具调用:Agent 的手和眼
llm·agent
leeyi13 小时前
多 LLM Provider:不改一行业务代码换模型
llm·agent
leeyi13 小时前
Hook 系统:插件化安全护栏怎么设计
llm·agent
hixiong12313 小时前
C# Tokenizers.DotNet测试工具
开发语言·人工智能·llm