pytorch执行报错cuda版本不匹配

RuntimeError: GET was unable to find an engine to execute this computation

sh 复制代码

nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Tue_Sep_15_19:10:02_PDT_2020
Cuda compilation tools, release 11.1, V11.1.74
Build cuda_1.1TC455_06.29069683_0

安装的torch版本是cuda11.8，但是机器环境指向的是11.1版本

sh 复制代码

vim ~/.bashrc  # 将下面的命令追加到bashrc文件中
source ~/.bashrc

bashrc是全局变量文件，source后会在所有的虚拟环境里面生效。export导入多个cuda文件，最后生效的是最后一次export的cuda版本。

sh 复制代码

# 下面命令将机器环境cuda版本指向cuda11.8 
export PATH=/usr/local/cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

cuda11.8

sh 复制代码

nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:33:58_PDT_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0

执行完上述命令后，脚本不再报错。

RuntimeError: GET was unable to find an engine to execute this computation 这个报错通常与 PyTorch 在使用 GPU 时的问题有关，可能的原因有：

CUDA 驱动程序问题：CUDA 驱动程序没有正确安装或版本不匹配。
CUDA 工具包未正确配置：CUDA 工具包未正确安装或环境变量未正确配置。
PyTorch 编译时未正确支持 CUDA：你安装的 PyTorch 版本可能没有编译支持 CUDA。
GPU 被其他进程占用：当前 GPU 被其他进程占用，导致无法使用。
硬件问题：GPU 硬件可能有问题，导致无法执行计算。

解决步骤

1. 检查 CUDA 驱动程序

确保 CUDA 驱动程序已正确安装并且版本与 CUDA 工具包版本匹配。使用以下命令检查：

sh 复制代码

nvidia-smi

如果输出显示 GPU 信息，说明 CUDA 驱动程序已正确安装。

2. 检查 CUDA 工具包

确保 CUDA 工具包已正确安装，并且 nvcc 命令可以运行：

sh 复制代码

nvcc --version

确保输出显示 CUDA 版本信息。

3. 检查 PyTorch 是否支持 CUDA

确保你安装的 PyTorch 版本支持 CUDA，并且 CUDA 版本与 PyTorch 版本兼容。运行以下代码：

python 复制代码

import torch
print(torch.__version__)
print(torch.version.cuda)
print(torch.cuda.is_available())
print(torch.backends.cudnn.version())

确保输出显示 CUDA 可用，并且 CUDA 和 cuDNN 版本正确。

4. 检查 GPU 使用情况

确保 GPU 未被其他进程占用。使用以下命令检查 GPU 使用情况：

sh 复制代码

nvidia-smi

5. 重新安装支持 CUDA 的 PyTorch

如果问题仍然存在，尝试重新安装支持 CUDA 的 PyTorch 版本：

sh 复制代码

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

确保将 cu113 替换为你实际需要的 CUDA 版本。

示例代码进行检查

以下是一些示例代码来进行检查和调试：

python 复制代码

import torch

# 检查 PyTorch 和 CUDA 版本
print("PyTorch version:", torch.__version__)
print("CUDA version:", torch.version.cuda)

# 检查 CUDA 是否可用
cuda_available = torch.cuda.is_available()
print("Is CUDA available:", cuda_available)

# 检查 GPU 设备数量
device_count = torch.cuda.device_count()
print("CUDA device count:", device_count)

if cuda_available:
    for i in range(device_count):
        print(f"Device {i}: {torch.cuda.get_device_name(i)}")

# 尝试运行简单的 CUDA 操作
if cuda_available:
    try:
        x = torch.tensor([1.0, 2.0, 3.0], device='cuda')
        y = x ** 2
        print("CUDA computation result:", y)
    except RuntimeError as e:
        print("CUDA computation failed:", e)

sh 复制代码

PyTorch version: 2.1.0+cu118
CUDA version: 11.8
Is CUDA available: True
CUDA device count: 4
Device 0: NVIDIA GeForce RTX 3090
Device 1: NVIDIA GeForce RTX 3090
Device 2: NVIDIA GeForce RTX 3090
Device 3: NVIDIA GeForce RTX 3090
CUDA computation result: tensor([1., 4., 9.], device='cuda:0')

通过这些步骤，你应该能找到并解决 RuntimeError: GET was unable to find an engine to execute this computation 的原因。