docker 内 pytorch cuda 不可用

拉的官方 docker 仓库里的镜像

nvidia/cuda:12.4.1-cudnn-devel-rockylinux8

conda 安装2.5.0 的 pytorch 后,使用 cuda 报错

go 复制代码
(myenv) [root@000b4321253c opt]# python test1.py 
可用 GPU 数量: 1
检测 CUDA 时出错: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 804: forward compatibility was attempted on non supported HW

我的 test1.py 代码

go 复制代码
import torch

try:
    device_count = torch.cuda.device_count()
    print("可用 GPU 数量:", device_count)
    for i in range(device_count):
        print(f"GPU {i}: {torch.cuda.get_device_name(i)}")
except Exception as e:
    print("检测 CUDA 时出错:", e)

nvidia-smi 可以执行

直接贴原因:

NVIDIA 在 /usr/local/cuda/compat/ 目录下提供了一些兼容库 (libcuda.so.1 等),但如果主机的 NVIDIA 驱动版本较新,则不需要这些兼容库。强行使用这些库可能会导致不匹配的 CUDA 版本,从而触发 Error 804。

解决方案:

go 复制代码
rm -rf /usr/local/cuda/compat
相关推荐
williamdsy25 分钟前
【Docker】[特殊字符] Docker 部署完全指南 - 从本地开发到云服务器
服务器·docker·开发部署流程
黄思搏1 小时前
Docker基础教程 - 容器化部署入门指南
docker
Mr.小海1 小时前
gunicorn和docker冲突吗
docker·容器·gunicorn
Tiandaren2 小时前
自用提示词02 || Prompt Engineering || RAG数据切分 || 作用:通过LLM将文档切分成chunks
数据库·pytorch·深度学习·oracle·prompt·rag
ouliten3 小时前
cuda编程笔记(34)-- 内存访问控制与缓存提示
笔记·cuda
kk_net88997 小时前
PyTorch Geometric 图神经网络实战利器
人工智能·pytorch·神经网络·其他
lijun_xiao20099 小时前
DevOps(devops/k8s/docker/Linux)学习笔记
docker·kubernetes·devops
Mr.小海9 小时前
Kubernetes GPU 运维组件介绍
运维·容器·kubernetes
big男孩9 小时前
docker配置入门知识
docker