ubuntu 服务器(带NVLink)更新显卡驱动 (巨坑!!)

如果你使用的是大型的带NVLink的GPU服务器,例如H100\H20\A100等,就不要去学那些普通服务器或个人电脑的显卡驱动更新的教程,因为不一样!很容易导致更新后,nvidia-fabricmanager 的版本和驱动对不上,而且 apt-get 根本找不到对应的版本!

正确步骤:

1. 卸载原有驱动

复制代码
apt-get --purge remove "*nvidia*" -y  

2. 下载 Data Center 驱动

注意要下载Data Center 驱动而不是普通显卡驱动。去官网,选择想要的版本,按照官网步骤(如下图所示)做完(直到做完 apt-get install -y nvidia-open-570这一步),那么此时驱动安装完毕

3. 下载 nvidia-fabricmanager

NVLink的服务器必须安装nvidia-fabricmanager,不然即使nvidia-smi可以看到GPU,使用torch时也检测不到GPU

安装的nvidia-fabricmanager必须和nvidia-driver版本号严格对应,安装前可以先检查可安装的版本是否和driver对得上:

复制代码
apt-cache policy nvidia-fabricmanager-570

如果能找到正确版本,则安装它:

复制代码
apt-get install -y nvidia-fabricmanager-570

最后重启

复制代码
reboot

4. 开启nvidia-fabricmanager

重启后需要开启fabricmanager服务,参考此篇

复制代码
sudo systemctl enable nvidia-fabricmanager   # 配置Fabric Manager服务随实例开机自启动
sudo systemctl start nvidia-fabricmanager    # 启动Fabric Manager服务
sudo systemctl status nvidia-fabricmanager    # 查看Fabric Manager服务是否正常启动,回显active(running)表示启动成功

然后使用nvidia-smi检查显卡,使用 torch.cuda.is_available() 检测显卡,如果没问题则大功告成。

相关推荐
lxmyzzs2 分钟前
使用Python分析COCO数据集标注信息:一个简单脚本实现统计与可视化
python·深度学习·目标检测·计算机视觉
智算菩萨6 分钟前
【How Far Are We From AGI】4 AGI的“生理系统“——从算法架构到算力基座的工程革命
论文阅读·人工智能·深度学习·算法·ai·架构·agi
Willliam_william10 分钟前
CentOS 7系统中进行时间/时区设置
linux·运维·centos
李白的天不白11 分钟前
linux安装MongoDB
linux·运维·服务器
BioRunYiXue15 分钟前
从现象到机制:蛋白降解调控研究的系统策略与实验设计
java·linux·运维·服务器·网络·人工智能·eclipse
Sirius Wu16 分钟前
基于OpenClaw环境的Agent强化学习(RFT+GRPO)训练机制与自动化实践报告
人工智能·深度学习·机器学习·语言模型·aigc
alphaTao16 分钟前
LeetCode 每日一题 2026/3/16-2026/3/22
linux·windows·leetcode
supersolon20 分钟前
OpenClaw安装碰到的一些问题和解决方法
linux·运维·ai·openclaw·龙虾
历程里程碑20 分钟前
41 .UDP -3 群聊功能实现:线程池助力多客户端通信
linux·开发语言·网络·数据结构·c++·网络协议·udp
zly886537223 分钟前
windsurf rules与skill的使用
linux·c语言·开发语言·驱动开发