ubuntu 服务器(带NVLink)更新显卡驱动 (巨坑!!)

如果你使用的是大型的带NVLink的GPU服务器,例如H100\H20\A100等,就不要去学那些普通服务器或个人电脑的显卡驱动更新的教程,因为不一样!很容易导致更新后,nvidia-fabricmanager 的版本和驱动对不上,而且 apt-get 根本找不到对应的版本!

正确步骤:

1. 卸载原有驱动

复制代码
apt-get --purge remove "*nvidia*" -y  

2. 下载 Data Center 驱动

注意要下载Data Center 驱动而不是普通显卡驱动。去官网,选择想要的版本,按照官网步骤(如下图所示)做完(直到做完 apt-get install -y nvidia-open-570这一步),那么此时驱动安装完毕

3. 下载 nvidia-fabricmanager

NVLink的服务器必须安装nvidia-fabricmanager,不然即使nvidia-smi可以看到GPU,使用torch时也检测不到GPU

安装的nvidia-fabricmanager必须和nvidia-driver版本号严格对应,安装前可以先检查可安装的版本是否和driver对得上:

复制代码
apt-cache policy nvidia-fabricmanager-570

如果能找到正确版本,则安装它:

复制代码
apt-get install -y nvidia-fabricmanager-570

最后重启

复制代码
reboot

4. 开启nvidia-fabricmanager

重启后需要开启fabricmanager服务,参考此篇

复制代码
sudo systemctl enable nvidia-fabricmanager   # 配置Fabric Manager服务随实例开机自启动
sudo systemctl start nvidia-fabricmanager    # 启动Fabric Manager服务
sudo systemctl status nvidia-fabricmanager    # 查看Fabric Manager服务是否正常启动,回显active(running)表示启动成功

然后使用nvidia-smi检查显卡,使用 torch.cuda.is_available() 检测显卡,如果没问题则大功告成。

相关推荐
Madison-No74 小时前
【Linux】gcc/g++编辑器 && 初识动静态库 && 程序翻译过程
linux·服务器
小白不想白a5 小时前
【shell】每日shell练习:安全日志入侵检测/系统配置文件合规检查
运维·服务器
字节逆旅6 小时前
一个从从容容,一个连滚带爬:scp 与 rsync 的不同人生
linux
洛克大航海6 小时前
Linux 中新建用户
linux·运维·服务器
位步6 小时前
在linux系统中使用通用包安装 Mysql
android·linux·mysql
蜜蜜不吃糖7 小时前
解决Vcenter告警datastore存储容量不足问题
linux·运维·服务器
没有梦想的咸鱼185-1037-16637 小时前
AI Agent结合机器学习与深度学习在全球气候变化驱动因素预测中的应用
人工智能·python·深度学习·机器学习·chatgpt·数据分析
周杰伦_Jay7 小时前
【MCP开发部署流程表格分析】MCP架构解析、开发流程、部署方案、安全性分析
人工智能·深度学习·opencv·机器学习·架构·transformer
zzz.107 小时前
top命令的详解
linux·服务器·网络
东城绝神7 小时前
《Linux运维总结:基于ARM64+X86_64架构CPU使用docker-compose一键离线部署redis 7.4.5容器版分片集群》
linux·运维·redis·架构·分片集群