【解决】Linux更新系统内核后Nvidia-smi has failed...

问题概述

由于服务器(操作系统为RedHat 9)宕机,重启后,系统内核自动更新了,然后输入 nvidia-smi 发现报了下面的异常:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

上述其实是由于系统更新后,Nvidia驱动中的系统内核头文件无法使用导致的。

重新启动计算机后,NVIDIA SMI会显示NVIDIA驱动程序丢失,这是由于Linux内核升级,以前的NVIDIA驱动程序与连接不匹配。

解决方法

【这里主要针对系统中仍然还存在 nvidia 驱动来操作】

1 检查Nvidia是否在操作系统

命令行输入 nvcc -V

出现下面的情况 说明系统中的 Nvidia-smi 驱动未损坏 或者卸载。

2 安装kms

DKMS(Dynamic Kernel Module System)可以在内核变化后自动编译模块,并适应新的内核。它允许离散内核模块更新,而无需修改整个内核。使用 dkms 重新安装内核的相应驱动程序:

Red Hat系统中安装DKMS的命令:

复制代码
sudo yum install epel-release
sudo yum install dkms

3 检查Nvidia驱动版本

复制代码
ls /usr/src | grep nvidia

4 使用kms更新驱动

复制代码
dkms install -m nvidia -v 535.171.04

5 重新输入 nvidia-smi,验证成功

【如果上述过程不行,可尝试重新安装驱动。】

相关推荐
易保山19 分钟前
MIT6.S081 - Lab10 mmap(文件&内存映射)
linux·操作系统·c
NoneCoder24 分钟前
HTML 模板技术与服务端渲染
服务器·servlet·html
禅与Bug的修复艺术28 分钟前
JAVA后端开发常用的LINUX命令总结
java·linux·面试·java面试·后端开发·java后端·面试经验
Cloud_Air7541 小时前
从零开始使用SSH链接目标主机(包括Github添加SSH验证,主机连接远程机SSH验证)
运维·ssh
李詹1 小时前
Steam游戏服务器攻防全景解读——如何构建游戏级抗DDoS防御体系?
服务器·游戏·ddos
你熬夜了吗?1 小时前
spring中使用netty-socketio部署到服务器(SSL、nginx转发)
服务器·websocket·spring·netty·ssl
joke_xiaoli1 小时前
tomcat Server 连接服务器 进展
java·服务器·tomcat
Hello.Reader1 小时前
基于 Nginx 的 WebSocket 反向代理实践
运维·websocket·nginx
北冥有鱼被烹2 小时前
【微知】/proc中如何查看Linux内核是否允许加载内核模块?(/proc/sys/kernel/modules_disabled)
linux·服务器
qq_273900232 小时前
CentOS系统防火墙服务介绍
linux·运维·centos