Ubuntu20.04.6安装RTXPRO6000驱动
整了台多卡GPU服务器,里面塞了几张RTXPRO6000,然后不出意外的安驱动的时候出意外了,NVIDIA官网按照正常方式检索不到对应驱动,直接用Linux版驱动,安装后无法使用 nvidia-smi指令识别到显卡。
免责声明
- 以下方式环境为纯命令行ubuntu20.04.6 LTS,且显卡型号为RTXPRO6000服务器版,不对号的尽量不要参考本文章。
- 我部署的时候看到了Ubuntu22.04的驱动安装方式,22.04的系统可以自行去查找对应文章。
- 同时建议:以下所有指令在root环境下执行,进入方式如
sudo -i。如果你怂的怕弄坏环境,那你不如找别人装。 - 另:apt或apt-get导致的环境紊乱,请自行处理或者去问大模型。

Ubuntu20.04.6安装RTXPRO6000驱动
警告
如果之前安装过任何成功或不成功的驱动,就先卸载掉整个驱动框架,包括gnome,nouveau等,见下。
省流版
先把nouveau卸载了,可参考不同Linux系统nouveau驱动禁用方式。(别问为什么是鲲鹏的教程,都一样没区别)。
至于为啥?参考为啥装显卡驱动要禁用nouveau?
然后使用apt安装nvidia-driver-570-server-open(目前我测试535不通过,550没试)。具体有没有这个包,请自行使用tab补全检索查找。如果不出意外的话,你重启后应该就能看到显卡了。
如果没有,试着卸载旧框架先试试。

卸载旧框架
powershell
1、卸载gnome-shell主程序
sudo apt-get remove gnome-shell
2、卸载掉gnome
sudo apt-get remove gnome
3、卸载不需要的依赖关系
sudo apt-get autoremove
4、彻底卸载删除gnome的相关配置文件
sudo apt-get purge gnome
5、清理安装gnome时候留下的缓存程序软件包(你最好知道我这条指令在干什么)
sudo apt-get autoclean
sudo apt-get clean
6. 禁用nouveau显卡驱动
$ sudo vi /etc/modprobe.d/blacklist-nouveau.conf
在文件内插入以下内容并保存:
blacklist nouveau
options nouveau modeset=0
7、禁用生效后重启:
$ sudo update-initramfs -u
$ sudo reboot
8、重启后验证是否生效:(没输出就对了,有输出说明你卸载失败了)
$ lsmod | grep nouveau
安装RTXPRO6000驱动
我看其他地方的教程说,NVIDIA的RTXPRO系列,正好从RTXPRO6000开始,就只支持open系的驱动了,不知道是真是假,我被驱动安装折磨的也没试过正常的server驱动,如有哪位闲得无聊可以试下,告诉我下答案。

powershell
# 安装对应驱动
sudo apt install nvidia-driver-570-server-open
# 这个时候nvidia-smi还是有问题的,直接重启后再验证就行
sudo reboot
# 重启后
sudo nvidia-smi
我反正装完就ok了,如图所示:

遇到其他问题再说,反正我转交给开发组了
