pytorch执行报错cuda版本不匹配

RuntimeError: GET was unable to find an engine to execute this computation

sh 复制代码
nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Tue_Sep_15_19:10:02_PDT_2020
Cuda compilation tools, release 11.1, V11.1.74
Build cuda_1.1TC455_06.29069683_0

安装的torch版本是cuda11.8,但是机器环境指向的是11.1版本

sh 复制代码
vim ~/.bashrc  # 将下面的命令追加到bashrc文件中
source ~/.bashrc

bashrc是全局变量文件,source后会在所有的虚拟环境里面生效。export导入多个cuda文件,最后生效的是最后一次export的cuda版本。

sh 复制代码
# 下面命令将机器环境cuda版本指向cuda11.8 
export PATH=/usr/local/cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

cuda11.8

sh 复制代码
nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:33:58_PDT_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0

执行完上述命令后,脚本不再报错。

RuntimeError: GET was unable to find an engine to execute this computation 这个报错通常与 PyTorch 在使用 GPU 时的问题有关,可能的原因有:

  1. CUDA 驱动程序问题:CUDA 驱动程序没有正确安装或版本不匹配。
  2. CUDA 工具包未正确配置:CUDA 工具包未正确安装或环境变量未正确配置。
  3. PyTorch 编译时未正确支持 CUDA:你安装的 PyTorch 版本可能没有编译支持 CUDA。
  4. GPU 被其他进程占用:当前 GPU 被其他进程占用,导致无法使用。
  5. 硬件问题:GPU 硬件可能有问题,导致无法执行计算。

解决步骤

1. 检查 CUDA 驱动程序

确保 CUDA 驱动程序已正确安装并且版本与 CUDA 工具包版本匹配。使用以下命令检查:

sh 复制代码
nvidia-smi

如果输出显示 GPU 信息,说明 CUDA 驱动程序已正确安装。

2. 检查 CUDA 工具包

确保 CUDA 工具包已正确安装,并且 nvcc 命令可以运行:

sh 复制代码
nvcc --version

确保输出显示 CUDA 版本信息。

3. 检查 PyTorch 是否支持 CUDA

确保你安装的 PyTorch 版本支持 CUDA,并且 CUDA 版本与 PyTorch 版本兼容。运行以下代码:

python 复制代码
import torch
print(torch.__version__)
print(torch.version.cuda)
print(torch.cuda.is_available())
print(torch.backends.cudnn.version())

确保输出显示 CUDA 可用,并且 CUDA 和 cuDNN 版本正确。

4. 检查 GPU 使用情况

确保 GPU 未被其他进程占用。使用以下命令检查 GPU 使用情况:

sh 复制代码
nvidia-smi
5. 重新安装支持 CUDA 的 PyTorch

如果问题仍然存在,尝试重新安装支持 CUDA 的 PyTorch 版本:

sh 复制代码
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

确保将 cu113 替换为你实际需要的 CUDA 版本。

示例代码进行检查

以下是一些示例代码来进行检查和调试:

python 复制代码
import torch

# 检查 PyTorch 和 CUDA 版本
print("PyTorch version:", torch.__version__)
print("CUDA version:", torch.version.cuda)

# 检查 CUDA 是否可用
cuda_available = torch.cuda.is_available()
print("Is CUDA available:", cuda_available)

# 检查 GPU 设备数量
device_count = torch.cuda.device_count()
print("CUDA device count:", device_count)

if cuda_available:
    for i in range(device_count):
        print(f"Device {i}: {torch.cuda.get_device_name(i)}")

# 尝试运行简单的 CUDA 操作
if cuda_available:
    try:
        x = torch.tensor([1.0, 2.0, 3.0], device='cuda')
        y = x ** 2
        print("CUDA computation result:", y)
    except RuntimeError as e:
        print("CUDA computation failed:", e)
sh 复制代码
PyTorch version: 2.1.0+cu118
CUDA version: 11.8
Is CUDA available: True
CUDA device count: 4
Device 0: NVIDIA GeForce RTX 3090
Device 1: NVIDIA GeForce RTX 3090
Device 2: NVIDIA GeForce RTX 3090
Device 3: NVIDIA GeForce RTX 3090
CUDA computation result: tensor([1., 4., 9.], device='cuda:0')

通过这些步骤,你应该能找到并解决 RuntimeError: GET was unable to find an engine to execute this computation 的原因。

相关推荐
万粉变现经纪人2 小时前
如何解决 pip install -r requirements.txt 私有索引未设为 trusted-host 导致拒绝 问题
开发语言·python·scrapy·flask·beautifulsoup·pandas·pip
查士丁尼·绵3 小时前
笔试-九宫格三阶积幻方
python·九宫格·三阶积幻方
云知谷4 小时前
【C++基本功】C++适合做什么,哪些领域适合哪些领域不适合?
c语言·开发语言·c++·人工智能·团队开发
rit84324995 小时前
基于MATLAB实现基于距离的离群点检测算法
人工智能·算法·matlab
l1t5 小时前
DeepSeek辅助利用搬移底层xml实现快速编辑xlsx文件的python程序
xml·开发语言·python·xlsx
大飞记Python5 小时前
部门管理|“编辑部门”功能实现(Django5零基础Web平台)
前端·数据库·python·django
初学小刘6 小时前
深度学习:从图片数据到模型训练(十分类)
人工智能·深度学习
递归不收敛6 小时前
大语言模型(LLM)入门笔记:嵌入向量与位置信息
人工智能·笔记·语言模型
之墨_7 小时前
【大语言模型】—— 自注意力机制及其变体(交叉注意力、因果注意力、多头注意力)的代码实现
人工智能·语言模型·自然语言处理
查士丁尼·绵7 小时前
笔试-羊狼过河
python