ubuntu下部署大模型显存被其它程序占用问题解决

现象

用nvidia-smi查看显卡占用,发现xorg和gnome-remote-desktop总是占用几百兆的显存

环境

系统:ubuntu-22.04

显卡:A100 * 8

NVIDIA-SMI:570.195.03

Driver-Version:570.195.03

CUDA-Version:12.8

gnome-remote-desktop:jammy-updates,now 42.9-0ubuntu0.22.04.2

xserver-xorg-core:jammy-updates,jammy-security,now 2:21.1.4-2ubuntu1.7~22.04.16

解决思路

  1. 从应用本身出发,让应用选择集显,或干脆不要用显卡加速
  2. 从系统角度出发,让系统不允许应用占用计算卡
  3. 从计算卡角度出发,让计算卡不允许应用使用它

我的场景有效解决方法

1. 强制Xorg使用集显

lspci | grep -E "VGA|3D" 查看集显对应PCI号及名称
sudo vi /etc/X11/xorg.conf

复制代码
Section "Device"
    Identifier "ASPEED"
    Driver "modesetting"
    BusID "PCI:5:0:0"
EndSection

sudo systemctl daemon-reload
sudo systemctl restart gdm

2. 强制gnome-remote-desktop使用集显

lspci | grep -E "VGA|3D" 查看集显对应PCI号及名称
sudo vi /lib/systemd/user/gnome-remote-desktop.service

复制代码
[Service]
# 选定义特定显示GPU,禁用所有GPU计算
Environment="DRI_PRIME=pci-0000_05_00_0"
Environment="CUDA_VISIBLE_DEVICES="
# 强制使用Mesa的EGL后端,并强制使用无头(离屏)渲染模式。
Environment="__EGL_VENDOR_LIBRARY_FILENAMES=/usr/share/glvnd/egl_vendor.d/50_mesa.json"
Environment="EGL_PLATFORM=surfaceless"

systemctl --user daemon-reload
systemctl --user restart gnome-remote-desktop

也可尝试使用如下配置强制软件渲染,不过不一定有效

复制代码
[Service]
# 完全禁用硬件视频编解码,强制使用CPU软件处理。
Environment="LIBVA_DRIVER_NAME=none"
Environment="VDPAU_DRIVER=va_gl"
Environment="GST_VAAPI_ALL_DRIVERS=0"
Environment="GST_PLUGIN_FEATURE_RANK=vaapih264enc:NONE,vaapih265enc:NONE,vah264enc:NONE,vah265enc:NONE"
# 完全禁用硬件3D加速,强制使用CPU软件渲染
Environment="GALLIUM_DRIVER=softpipe"
Environment="LIBGL_ALWAYS_SOFTWARE=1"

其它解决思路供参考

1. 屏蔽GPU图形相关驱动

sudo vi /etc/modprobe.d/99-no-nvidia-drm.conf

复制代码
blacklist nvidia_drm
blacklist nvidia_modeset
install nvidia_drm /bin/false
install nvidia_modeset /bin/false

sudo vi /etc/modprobe.d/nvidia-graphics-drivers-kms.conf

复制代码
options nvidia_drm modeset=0

sudo update-initramfs -u -k all
sudo reboot

2. 使用udev禁止drm访问特定GPU

sudo ls -al /dev/dri 查看所有显卡名称列表,要把计算卡屏蔽掉
sudo vi /etc/udev/rules.d/99-hide-nvidia-render.rules

复制代码
SUBSYSTEM=="drm", KERNEL=="card[1-8]*", DRIVERS=="nvidia", TAG-="seat", TAG+="uaccess"

sudo udevadm control --reload-rules
sudo udevadm trigger

3. 禁用wayland,强制使用X11

sudo vi /etc/gdm3/custom.conf

复制代码
[daemon]
WaylandEnable=false

sudo systemctl daemon-reload
sudo systemctl restart gdm

相关推荐
vivo互联网技术1 天前
CVPR 2026 | 全新强化学习框架 BeautyGRPO:重塑真实人像
算法·大模型·cvpr·影像
AndrewHZ2 天前
【LLM技术全景】大模型能力探秘:In-Context Learning与思维链(CoT)
人工智能·语言模型·大模型·llm·cot·思维链·icl
Vergelight2 天前
实战拆解|三类RAG架构差异:朴素、进阶、多轮RAG落地选型指南
架构·大模型·aigc·agent·ai产品经理·转行·ai后台设计
张飞飞飞飞飞2 天前
Tmux命令使用教程
linux·服务器·ubuntu
问道飞鱼2 天前
【大模型相关】意图识别实现方案行业分析报告
大模型·意图识别
DogDaoDao2 天前
【GitHub】CL4R1T4S:AI 系统提示词的透明革命
人工智能·python·ai·大模型·github·ai agent·cl4r1t4s
盼小辉丶2 天前
Ubuntu极速部署OpenClaw完全指南(本地模型+DeepSeek)
linux·ubuntu·openclaw
黑白园2 天前
【环境搭建】Ubuntu安装(一)
linux·ubuntu
Moshow郑锴2 天前
Ubuntu用SDKMAN轻松管理多个Java 版本
java·ubuntu·sdkman
error:(2 天前
Ubuntu 22.04 GNOME远程桌面配置问题排查与解决全流程
linux·运维·ubuntu