ubuntu显卡驱动重启后失效的解决办法

写在前方:ubuntu系统,显卡重启后驱动失效,显卡不可用。网上冲浪之后得以有效解决,以下是解决方案

  • 查看显卡nvidia-smi;驱动失效消息:
bash 复制代码
(base) root@node:~# nvidia-smi 
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
  • 驱动失效原因:

    系统内核升级,与原驱动信息不匹配

  • 解决办法:

    不建议重新安装驱动,可通过DKMS(Dynamic Kernel Module Support)修复,它能够维护内核外的驱动程序,并且在内核版本变化后自动生成新的模块。

1、下载dkms,apt-get install dkms

bash 复制代码
(base) root@node:~# apt-get install dkms

2、查看驱动版本信息ls /usr/src |grep nvidia

bash 复制代码
(base) root@node:~# ls /usr/src |grep nvidia
nvidia-550.90.07

3、使用dkms修复:

bash 复制代码
(base) root@node:~# dkms install -m nvidia -v 550.90.07

4、检查驱动是否可用:nvidia-smi

bash 复制代码
(base) root@node:~# nvidia-smi 
Fri Jul 12 06:00:52 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.90.07              Driver Version: 550.90.07      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA A800 80GB PCIe          Off |   00000000:4B:00.0 Off |                    0 |
| N/A   41C    P0             68W /  300W |       1MiB /  81920MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA A800 80GB PCIe          Off |   00000000:65:00.0 Off |                    0 |
| N/A   43C    P0             68W /  300W |       1MiB /  81920MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA A800 80GB PCIe          Off |   00000000:B1:00.0 Off |                    0 |
| N/A   42C    P0             71W /  300W |       1MiB /  81920MiB |      3%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA A800 80GB PCIe          Off |   00000000:E3:00.0 Off |                    0 |
| N/A   48C    P0             74W /  300W |       1MiB /  81920MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

参考资料:
https://blog.csdn.net/trainingVIP/article/details/137789875

相关推荐
云水一下2 分钟前
黑客的“猜密码”游戏:SSH暴力破解实战与Linux安全加固
linux·渗透测试·ssh·暴力破解
kebidaixu9 分钟前
OK3568开发板更新Ubuntu22.04方法总结
linux·运维·服务器
是桃萌萌鸭~1 小时前
oracle的隐藏虚拟列详解
运维·数据库·oracle
晚风予卿云月1 小时前
【Linux】Linux2.6 O(1)调度器超详解 | 进程切换+内核链表 | 面试必背
linux·运维·面试
折哥的程序人生 · 物流技术专研1 小时前
出版社物流WMS智能调度实战(三):从“卡死”到“跑稳”——WMS机器学习运维监控与自动回滚实战
运维·人工智能·机器学习·架构·人机交互
tang777891 小时前
2026年国内代理IP服务商横向测评:企业级爬虫如何选型?
运维·服务器·网络·爬虫·python·代理
Agent产品评测局1 小时前
传统RPAvsAI Agent,制造业生产场景能力对比详解 —— 2026企业级自动化选型全景盘点
运维·人工智能·ai·chatgpt·自动化
霜落花轻扬1 小时前
docker 开发环境卡死的解决办法
运维·docker·容器
www.021 小时前
Linux 终端守护神 Tmux :如何优雅地管理后台实验与恢复会话
linux·运维·服务器·人工智能·tmux
广州灵眸科技有限公司2 小时前
瑞芯微(EASY EAI)RV1126B yolov11-track多目标跟踪部署教程
linux·开发语言·网络·人工智能·yolo·机器学习·目标跟踪