现象
用nvidia-smi查看显卡占用,发现xorg和gnome-remote-desktop总是占用几百兆的显存
环境
系统:ubuntu-22.04
显卡:A100 * 8
NVIDIA-SMI:570.195.03
Driver-Version:570.195.03
CUDA-Version:12.8
gnome-remote-desktop:jammy-updates,now 42.9-0ubuntu0.22.04.2
xserver-xorg-core:jammy-updates,jammy-security,now 2:21.1.4-2ubuntu1.7~22.04.16
解决思路
- 从应用本身出发,让应用选择集显,或干脆不要用显卡加速
- 从系统角度出发,让系统不允许应用占用计算卡
- 从计算卡角度出发,让计算卡不允许应用使用它
我的场景有效解决方法
1. 强制Xorg使用集显
lspci | grep -E "VGA|3D" 查看集显对应PCI号及名称
sudo vi /etc/X11/xorg.conf
Section "Device"
Identifier "ASPEED"
Driver "modesetting"
BusID "PCI:5:0:0"
EndSection
sudo systemctl daemon-reload
sudo systemctl restart gdm
2. 强制gnome-remote-desktop使用集显
lspci | grep -E "VGA|3D" 查看集显对应PCI号及名称
sudo vi /lib/systemd/user/gnome-remote-desktop.service
[Service]
# 选定义特定显示GPU,禁用所有GPU计算
Environment="DRI_PRIME=pci-0000_05_00_0"
Environment="CUDA_VISIBLE_DEVICES="
# 强制使用Mesa的EGL后端,并强制使用无头(离屏)渲染模式。
Environment="__EGL_VENDOR_LIBRARY_FILENAMES=/usr/share/glvnd/egl_vendor.d/50_mesa.json"
Environment="EGL_PLATFORM=surfaceless"
systemctl --user daemon-reload
systemctl --user restart gnome-remote-desktop
也可尝试使用如下配置强制软件渲染,不过不一定有效
[Service]
# 完全禁用硬件视频编解码,强制使用CPU软件处理。
Environment="LIBVA_DRIVER_NAME=none"
Environment="VDPAU_DRIVER=va_gl"
Environment="GST_VAAPI_ALL_DRIVERS=0"
Environment="GST_PLUGIN_FEATURE_RANK=vaapih264enc:NONE,vaapih265enc:NONE,vah264enc:NONE,vah265enc:NONE"
# 完全禁用硬件3D加速,强制使用CPU软件渲染
Environment="GALLIUM_DRIVER=softpipe"
Environment="LIBGL_ALWAYS_SOFTWARE=1"
其它解决思路供参考
1. 屏蔽GPU图形相关驱动
sudo vi /etc/modprobe.d/99-no-nvidia-drm.conf
blacklist nvidia_drm
blacklist nvidia_modeset
install nvidia_drm /bin/false
install nvidia_modeset /bin/false
sudo vi /etc/modprobe.d/nvidia-graphics-drivers-kms.conf
options nvidia_drm modeset=0
sudo update-initramfs -u -k all
sudo reboot
2. 使用udev禁止drm访问特定GPU
sudo ls -al /dev/dri 查看所有显卡名称列表,要把计算卡屏蔽掉
sudo vi /etc/udev/rules.d/99-hide-nvidia-render.rules
SUBSYSTEM=="drm", KERNEL=="card[1-8]*", DRIVERS=="nvidia", TAG-="seat", TAG+="uaccess"
sudo udevadm control --reload-rules
sudo udevadm trigger
3. 禁用wayland,强制使用X11
sudo vi /etc/gdm3/custom.conf
[daemon]
WaylandEnable=false
sudo systemctl daemon-reload
sudo systemctl restart gdm