问题记录(待解决)|由 apt install nvidia-cuda-toolkit 引发的灾难

捣鼓环境的时候,按照网上的办法执行 sudo apt install nvidia-cuda-toolkit 后,28号机器的 nvidia-smi 命令直接无法使用了......

python 复制代码
# nvidia-smi
Failed to initialize NVML: Driver/library version mismatch

cuda 也无法被正确识别:

python 复制代码
# python 
Python 3.8.5 (default, Sep  4 2020, 07:30:14) 
[GCC 7.3.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import torch
>>> torch.cuda.is_available()
/root/anaconda3/lib/python3.8/site-packages/torch/cuda/__init__.py:83: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 804: forward compatibility was attempted on non supported HW (Triggered internally at  ../c10/cuda/CUDAFunctions.cpp:109.)
  return torch._C._cuda_getDeviceCount() > 0
False

于是根据此篇博客,尝试

python 复制代码
>>> sudo dpkg --list | grep nvidia-*
iU  libnvidia-cfg1-525:amd64         525.147.05-0ubuntu0~gpu18.04.1      amd64        NVIDIA binary OpenGL/GLX configuration library
iU  libnvidia-common-525             525.147.05-0ubuntu0~gpu18.04.1      all          Shared files used by the NVIDIA libraries
iU  libnvidia-compute-525:amd64      525.147.05-0ubuntu0~gpu18.04.1      amd64        NVIDIA libcompute package
iU  libnvidia-decode-525:amd64       525.147.05-0ubuntu0~gpu18.04.1      amd64        NVIDIA Video Decoding runtime libraries
iU  libnvidia-encode-525:amd64       525.147.05-0ubuntu0~gpu18.04.1      amd64        NVENC Video Encoding runtime library
iU  libnvidia-extra-525:amd64        525.147.05-0ubuntu0~gpu18.04.1      amd64        Extra libraries for the NVIDIA driver
iU  libnvidia-fbc1-525:amd64         525.147.05-0ubuntu0~gpu18.04.1      amd64        NVIDIA OpenGL-based Framebuffer Capture runtime library
iU  libnvidia-gl-525:amd64           525.147.05-0ubuntu0~gpu18.04.1      amd64        NVIDIA OpenGL/GLX/EGL/GLES GLVND libraries and Vulkan ICD
iU  nvidia-dkms-525                  525.147.05-0ubuntu0~gpu18.04.1      amd64        NVIDIA DKMS package
iU  nvidia-driver-510                525.147.05-0ubuntu0~gpu18.04.1      amd64        Transitional package for nvidia-driver-525
iU  nvidia-driver-525                525.147.05-0ubuntu0~gpu18.04.1      amd64        NVIDIA driver metapackage
iU  nvidia-kernel-common-525         525.147.05-0ubuntu0~gpu18.04.1      amd64        Shared files used with the kernel module
iU  nvidia-kernel-source-525         525.147.05-0ubuntu0~gpu18.04.1      amd64        NVIDIA kernel source package
iU  nvidia-prime                     0.8.16~0.18.04.1                    all          Tools to enable NVIDIA's Prime
iU  nvidia-settings                  470.57.01-0ubuntu0.18.04.1          amd64        Tool for configuring the NVIDIA graphics driver
iU  xserver-xorg-video-nvidia-525    525.147.05-0ubuntu0~gpu18.04.1      amd64        NVIDIA binary Xorg driver
>>> cat /proc/driver/nvidia/version
NVRM version: NVIDIA UNIX x86_64 Kernel Module  510.47.03  Mon Jan 24 22:58:54 UTC 2022
GCC version:  gcc version 9.4.0 (Ubuntu 9.4.0-1ubuntu1~20.04.1)

发现就是cuda和显卡驱动版本不匹配。需要把版本统一为 510.47.03 按照如下方法:

  1. 卸载驱动:
python 复制代码
sudo apt-get purge nvidia*
  1. 把显卡驱动加入ppa(个人软件包文档,仅支持Ubuntu):
python 复制代码
sudo add-apt-repository ppa:graphics-drivers
sudo apt-get update
  1. 重新安装驱动:
python 复制代码
apt-get install nvidia-driver-510 nvidia-settings nvidia-prime

但是一直报如下错误:

python 复制代码
Errors were encountered while processing:
 /tmp/apt-dpkg-install-T8KJGT/08-nvidia-compute-utils-525_525.147.05-0ubuntu0~gpu18.04.1_amd64.deb
 /tmp/apt-dpkg-install-T8KJGT/12-nvidia-utils-525_525.147.05-0ubuntu0~gpu18.04.1_amd64.deb
E: Sub-process /usr/bin/dpkg returned an error code (1)

解决这个问题再来更新。

PS:有知道解决办法的小伙伴欢迎在评论区补充!


参考链接

【nvidia-smi报错】Failed to initialize NVML: Driver/library version mismatch-CSDN博客

相关推荐
Cha0DD3 小时前
【由浅入深探究langchain】第二十集-SQL Agent+Human-in-the-loop
人工智能·python·ai·langchain
Cha0DD3 小时前
【由浅入深探究langchain】第十九集-官方的SQL Agent示例
人工智能·python·ai·langchain
智算菩萨4 小时前
【Tkinter】4 Tkinter Entry 输入框控件深度解析:数据验证、密码输入与现代表单设计实战
python·ui·tkinter·数据验证·entry·输入框
君科程序定做5 小时前
多源遥感与深度学习视角下耕地识别与耕地监测的局限性、研究空白与科学问题
人工智能·深度学习
七夜zippoe5 小时前
可解释AI:构建可信的机器学习系统——反事实解释与概念激活实战
人工智能·python·机器学习·可解释性·概念激活
AI先驱体验官6 小时前
智能体变现:从技术实现到产品化的实践路径
大数据·人工智能·深度学习·重构·aigc
龙腾AI白云7 小时前
什么是AI智能体(AI Agent)
人工智能·深度学习·自然语言处理·数据分析
YuanDaima20488 小时前
[CrewAI] 第15课|构建一个多代理系统来实现自动化简历定制和面试准备
人工智能·python·面试·agent·crewai
WHS-_-20228 小时前
Python 算法题学习笔记一
python·学习·算法
码界筑梦坊8 小时前
353-基于Python的大湾区气候数据可视化分析系统
开发语言·python·信息可视化·数据分析·django·vue·毕业设计