【解决】Linux更新系统内核后Nvidia-smi has failed...

问题概述

由于服务器(操作系统为RedHat 9)宕机,重启后,系统内核自动更新了,然后输入 nvidia-smi 发现报了下面的异常:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

上述其实是由于系统更新后,Nvidia驱动中的系统内核头文件无法使用导致的。

重新启动计算机后,NVIDIA SMI会显示NVIDIA驱动程序丢失,这是由于Linux内核升级,以前的NVIDIA驱动程序与连接不匹配。

解决方法

【这里主要针对系统中仍然还存在 nvidia 驱动来操作】

1 检查Nvidia是否在操作系统

命令行输入 nvcc -V

出现下面的情况 说明系统中的 Nvidia-smi 驱动未损坏 或者卸载。

2 安装kms

DKMS(Dynamic Kernel Module System)可以在内核变化后自动编译模块,并适应新的内核。它允许离散内核模块更新,而无需修改整个内核。使用 dkms 重新安装内核的相应驱动程序:

Red Hat系统中安装DKMS的命令:

复制代码
sudo yum install epel-release
sudo yum install dkms

3 检查Nvidia驱动版本

复制代码
ls /usr/src | grep nvidia

4 使用kms更新驱动

复制代码
dkms install -m nvidia -v 535.171.04

5 重新输入 nvidia-smi,验证成功

【如果上述过程不行,可尝试重新安装驱动。】

相关推荐
网络笨猪4 小时前
# Nginx企业级全套配置\+排错手册
运维·nginx
Yupureki4 小时前
《Linux网络编程》8.网络层IP原理
linux·运维·服务器·网络·ip
大厂数码评测员4 小时前
免费菜谱管理小程序怎么做才顺手:从情侣、个人、家庭三类场景拆需求和实现
服务器·小程序·apache
yyuuuzz4 小时前
aws亚马逊入门常见认知误区
运维·服务器·网络·云计算·github·aws
Je1lyfish5 小时前
CMU15-445 (2025 Fall/2026 Spring) Project#3 - QueryExecution
linux·c语言·开发语言·数据结构·数据库·c++·算法
DeepFlow 零侵扰全栈可观测5 小时前
运动战:AI 时代 IT 运维的决胜之道——DeepFlow 业务全链路可观测性的落地实践
运维·网络·人工智能·arcgis·云计算
林叔聊渠道分销6 小时前
saas产品运营案例 | 联盟营销计划如何帮助企业提高销售额?
运维·产品运营·sass·流量运营·用户运营
eucalyptus-DE7 小时前
Nova 计算节点故障排查指南
服务器·openstack
志栋智能7 小时前
告别报告堆砌:超自动化巡检的智能分析与洞察
运维·服务器·网络·人工智能·自动化
xyy_4968 小时前
wsl-localhost
linux