【解决】Linux更新系统内核后Nvidia-smi has failed...

问题概述

由于服务器(操作系统为RedHat 9)宕机,重启后,系统内核自动更新了,然后输入 nvidia-smi 发现报了下面的异常:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

上述其实是由于系统更新后,Nvidia驱动中的系统内核头文件无法使用导致的。

重新启动计算机后,NVIDIA SMI会显示NVIDIA驱动程序丢失,这是由于Linux内核升级,以前的NVIDIA驱动程序与连接不匹配。

解决方法

【这里主要针对系统中仍然还存在 nvidia 驱动来操作】

1 检查Nvidia是否在操作系统

命令行输入 nvcc -V

出现下面的情况 说明系统中的 Nvidia-smi 驱动未损坏 或者卸载。

2 安装kms

DKMS(Dynamic Kernel Module System)可以在内核变化后自动编译模块,并适应新的内核。它允许离散内核模块更新,而无需修改整个内核。使用 dkms 重新安装内核的相应驱动程序:

Red Hat系统中安装DKMS的命令:

复制代码
sudo yum install epel-release
sudo yum install dkms

3 检查Nvidia驱动版本

复制代码
ls /usr/src | grep nvidia

4 使用kms更新驱动

复制代码
dkms install -m nvidia -v 535.171.04

5 重新输入 nvidia-smi,验证成功

【如果上述过程不行,可尝试重新安装驱动。】

相关推荐
FJW020814几秒前
【Linux】用户管理及优化
linux·运维·服务器
---学无止境---4 分钟前
Linux中内核和用户空间通信send_uevent函数的实现
linux·网络
autism_cx19 分钟前
TCP/IP协议栈
服务器·网络·笔记·网络协议·tcp/ip·ios·osi
艾莉丝努力练剑30 分钟前
【C++:继承】C++面向对象继承全面解析:派生类构造、多继承、菱形虚拟继承与设计模式实践
linux·开发语言·c++·人工智能·stl·1024程序员节
塔能物联运维37 分钟前
物联网运维中基于强化学习的自动化决策优化技术
运维·物联网·自动化
JZC_xiaozhong40 分钟前
基于KPaaS平台实现的制造业端到端业务流程自动化
运维·自动化·bpm·数据集成与应用集成·流程设计可视化·流程监控·业务流程管理系统
报错小能手41 分钟前
项目——基于C/S架构的预约系统平台(3)
linux·开发语言·笔记·学习·架构·1024程序员节
星空的资源小屋1 小时前
Tuesday JS,一款可视化小说编辑器
运维·网络·人工智能·编辑器·电脑·excel
心寒丶1 小时前
Linux基础知识(三、Linux常见操作目录命令)
linux·运维·服务器·1024程序员节
ajassi20001 小时前
开源 Linux 服务器与中间件(十二)FRP内网穿透应用
linux·服务器·开源·frp