【解决】Linux更新系统内核后Nvidia-smi has failed...

问题概述

由于服务器(操作系统为RedHat 9)宕机,重启后,系统内核自动更新了,然后输入 nvidia-smi 发现报了下面的异常:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

上述其实是由于系统更新后,Nvidia驱动中的系统内核头文件无法使用导致的。

重新启动计算机后,NVIDIA SMI会显示NVIDIA驱动程序丢失,这是由于Linux内核升级,以前的NVIDIA驱动程序与连接不匹配。

解决方法

【这里主要针对系统中仍然还存在 nvidia 驱动来操作】

1 检查Nvidia是否在操作系统

命令行输入 nvcc -V

出现下面的情况 说明系统中的 Nvidia-smi 驱动未损坏 或者卸载。

2 安装kms

DKMS(Dynamic Kernel Module System)可以在内核变化后自动编译模块,并适应新的内核。它允许离散内核模块更新,而无需修改整个内核。使用 dkms 重新安装内核的相应驱动程序:

Red Hat系统中安装DKMS的命令:

sudo yum install epel-release
sudo yum install dkms

3 检查Nvidia驱动版本

ls /usr/src | grep nvidia

4 使用kms更新驱动

dkms install -m nvidia -v 535.171.04

5 重新输入 nvidia-smi,验证成功

【如果上述过程不行,可尝试重新安装驱动。】

相关推荐
葛小白11 分钟前
第五天 Labview数据记录(5.1 INI配置文件读写)
服务器·labview
阿俊仔(摸鱼版)10 分钟前
Python 常用运维模块之OS模块篇
运维·开发语言·python·云服务器
工程师焱记11 分钟前
Linux 常用命令——系统设置篇(保姆级说明)
linux·运维·服务器
某风吾起33 分钟前
linux系统中的 scp的使用方法
linux·服务器·网络
『往事』&白驹过隙;34 分钟前
操作系统(Linux Kernel 0.11&Linux Kernel 0.12)解读整理——内核初始化(main & init)之缓冲区的管理
linux·c语言·数据结构·物联网·操作系统
chian-ocean35 分钟前
探索Linux中的进程控制:从启动到退出的背后原理
linux·运维·服务器
涛ing36 分钟前
23. C语言 文件操作详解
java·linux·c语言·开发语言·c++·vscode·vim
阿猿收手吧!1 小时前
【Linux网络总结】字节序转换 收发信息 TCP握手挥手 多路转接
linux·服务器·网络·c++·tcp/ip
华纳云IDC服务商1 小时前
常见的备份服务器操作系统如何选择
运维·服务器
m0_748233641 小时前
【PHP】部署和发布PHP网站到IIS服务器
android·服务器·php