背景
- ubuntu 服务器通过显示器进行关机,断开电源重新接上电源再重启时,服务器连接显示器不再有输出。
- CPU 为 AMD Ryzen 7 5800X 8-Core Processor,并没有显示,只能通过 NVDIA GPU 来显示。
- 但是通过 nvidia-smi, nvitop 的输出, 以及跑模型时的 GPU 状态都正常🤔
解决方案-重装NVIDIA驱动
以下是重装NVIDIA驱动的完整步骤:
- 首先删除现有的NVIDIA驱动:
bash
sudo apt purge nvidia* libnvidia*
- 清理残留配置:
bash
sudo rm /etc/X11/xorg.conf
sudo rm /etc/X11/xorg.conf.d/*nvidia*
sudo rm /usr/share/X11/xorg.conf.d/*nvidia*
- 移除相关的PPA(如果有):
bash
sudo rm /etc/apt/sources.list.d/graphics-drivers*
- 确保nouveau被禁用:
bash
echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
echo "options nouveau modeset=0" | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf
sudo update-initramfs -u
- 更新系统:
bash
sudo apt update
sudo apt upgrade
- 安装必要的依赖:
bash
sudo apt install build-essential dkms linux-headers-$(uname -r)
- 查看推荐的驱动版本:
bash
ubuntu-drivers devices
- 安装推荐的驱动(以535为例,使用ubuntu-drivers devices显示的版本):
bash
sudo apt install nvidia-driver-535
- 配置NVIDIA DRM KMS:
bash
echo "options nvidia-drm modeset=1" | sudo tee /etc/modprobe.d/nvidia-kms.conf
- 重新生成initramfs:
bash
sudo update-initramfs -u
- 创建基本的X配置:
bash
sudo nvidia-xconfig
- 重启系统:
bash
sudo reboot
重启后,验证安装:
bash
nvidia-smi
如果要使用CUDA功能,还需要:
bash
sudo apt install nvidia-cuda-toolkit
检查CUDA版本:
bash
nvcc --version
这样应该能完成驱动的完整重装。重启后,系统应该使用新安装的NVIDIA驱动。