docker 内 pytorch cuda 不可用

拉的官方 docker 仓库里的镜像

nvidia/cuda:12.4.1-cudnn-devel-rockylinux8

conda 安装2.5.0 的 pytorch 后,使用 cuda 报错

go 复制代码
(myenv) [root@000b4321253c opt]# python test1.py 
可用 GPU 数量: 1
检测 CUDA 时出错: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 804: forward compatibility was attempted on non supported HW

我的 test1.py 代码

go 复制代码
import torch

try:
    device_count = torch.cuda.device_count()
    print("可用 GPU 数量:", device_count)
    for i in range(device_count):
        print(f"GPU {i}: {torch.cuda.get_device_name(i)}")
except Exception as e:
    print("检测 CUDA 时出错:", e)

nvidia-smi 可以执行

直接贴原因:

NVIDIA 在 /usr/local/cuda/compat/ 目录下提供了一些兼容库 (libcuda.so.1 等),但如果主机的 NVIDIA 驱动版本较新,则不需要这些兼容库。强行使用这些库可能会导致不匹配的 CUDA 版本,从而触发 Error 804。

解决方案:

go 复制代码
rm -rf /usr/local/cuda/compat
相关推荐
东风微鸣22 分钟前
提升效率:AI 知识库在软件开发中的应用
docker·云原生·kubernetes·可观察性
Lyndon110723 分钟前
K8S 八 数据存储-高级存储PV PVC 生命周期;配置存储ConfigMap Secret
云原生·容器·kubernetes
墨染点香37 分钟前
第七章 Pytorch构建模型详解【构建CIFAR10模型结构】
人工智能·pytorch·python
刘一说1 小时前
梳理一些 Docker 常用命令
docker·容器·eureka
虚伪的空想家1 小时前
记录es收集日志报错问题as the final mapping would have more than 1 type[XXX,doc]
大数据·elasticsearch·搜索引擎·容器·kubernetes·log-pilot
Shier833_Ww2 小时前
Windows10+WSL2+Docker相关整理
docker·容器·ubuntu20.04·windows10·wsl2
兮℡檬,4 小时前
房价预测|Pytorch
人工智能·pytorch·python
勇哥的编程江湖11 小时前
starrocks官网docker部署mysql无法连接
运维·docker·容器
小码过河.14 小时前
CentOS 搭建 Docker 私有镜像仓库
linux·docker·centos
贝塔西塔16 小时前
PytorchLightning最佳实践基础篇
pytorch·深度学习·lightning·编程框架