【解决】Linux更新系统内核后Nvidia-smi has failed...

问题概述

由于服务器(操作系统为RedHat 9)宕机,重启后,系统内核自动更新了,然后输入 nvidia-smi 发现报了下面的异常:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

上述其实是由于系统更新后,Nvidia驱动中的系统内核头文件无法使用导致的。

重新启动计算机后,NVIDIA SMI会显示NVIDIA驱动程序丢失,这是由于Linux内核升级,以前的NVIDIA驱动程序与连接不匹配。

解决方法

【这里主要针对系统中仍然还存在 nvidia 驱动来操作】

1 检查Nvidia是否在操作系统

命令行输入 nvcc -V

出现下面的情况 说明系统中的 Nvidia-smi 驱动未损坏 或者卸载。

2 安装kms

DKMS(Dynamic Kernel Module System)可以在内核变化后自动编译模块,并适应新的内核。它允许离散内核模块更新,而无需修改整个内核。使用 dkms 重新安装内核的相应驱动程序:

Red Hat系统中安装DKMS的命令:

复制代码
sudo yum install epel-release
sudo yum install dkms

3 检查Nvidia驱动版本

复制代码
ls /usr/src | grep nvidia

4 使用kms更新驱动

复制代码
dkms install -m nvidia -v 535.171.04

5 重新输入 nvidia-smi,验证成功

【如果上述过程不行,可尝试重新安装驱动。】

相关推荐
wanhengidc41 分钟前
深度了解云手机是什么
运维·服务器·科技·智能手机·云计算
python百炼成钢1 小时前
28.嵌入式 Linux LED 驱动开发实验
linux·运维·驱动开发
JJ1M82 小时前
用 Python 快速搭建一个支持 HTTPS、CORS 和断点续传的文件服务器
服务器·python·https
西风未眠3 小时前
高效编辑之vi/vim常用快捷键汇总
linux·编辑器·vim
_Stellar3 小时前
Linux 服务器管理 根目录文件夹权限设置 基于用户组实现安全共享
linux·服务器·安全
LUCIFER3 小时前
驱动开发:详细分析 DTB、DTS、DTSI、DTBO 的区别、用途及它们之间的关系
linux·服务器·驱动开发
BullSmall5 小时前
Test Matrix:测试矩阵(IT 领域定义 + 设计实践 + 华为场景应用)
运维·服务器
liuyao_xianhui5 小时前
版本控制器git--gdb/cgdb
linux·运维·服务器·git
CS_浮鱼5 小时前
【Linux进阶】mmap实战:文件映射、进程通信与LRU缓存
linux·运维·c++·缓存
chuxinweihui5 小时前
应用层协议 HTTP
linux·服务器·网络·网络协议·http