ubuntu下部署大模型显存被其它程序占用问题解决

现象

用nvidia-smi查看显卡占用,发现xorg和gnome-remote-desktop总是占用几百兆的显存

环境

系统:ubuntu-22.04

显卡:A100 * 8

NVIDIA-SMI:570.195.03

Driver-Version:570.195.03

CUDA-Version:12.8

gnome-remote-desktop:jammy-updates,now 42.9-0ubuntu0.22.04.2

xserver-xorg-core:jammy-updates,jammy-security,now 2:21.1.4-2ubuntu1.7~22.04.16

解决思路

  1. 从应用本身出发,让应用选择集显,或干脆不要用显卡加速
  2. 从系统角度出发,让系统不允许应用占用计算卡
  3. 从计算卡角度出发,让计算卡不允许应用使用它

我的场景有效解决方法

1. 强制Xorg使用集显

lspci | grep -E "VGA|3D" 查看集显对应PCI号及名称
sudo vi /etc/X11/xorg.conf

复制代码
Section "Device"
    Identifier "ASPEED"
    Driver "modesetting"
    BusID "PCI:5:0:0"
EndSection

sudo systemctl daemon-reload
sudo systemctl restart gdm

2. 强制gnome-remote-desktop使用集显

lspci | grep -E "VGA|3D" 查看集显对应PCI号及名称
sudo vi /lib/systemd/user/gnome-remote-desktop.service

复制代码
[Service]
# 选定义特定显示GPU,禁用所有GPU计算
Environment="DRI_PRIME=pci-0000_05_00_0"
Environment="CUDA_VISIBLE_DEVICES="
# 强制使用Mesa的EGL后端,并强制使用无头(离屏)渲染模式。
Environment="__EGL_VENDOR_LIBRARY_FILENAMES=/usr/share/glvnd/egl_vendor.d/50_mesa.json"
Environment="EGL_PLATFORM=surfaceless"

systemctl --user daemon-reload
systemctl --user restart gnome-remote-desktop

也可尝试使用如下配置强制软件渲染,不过不一定有效

复制代码
[Service]
# 完全禁用硬件视频编解码,强制使用CPU软件处理。
Environment="LIBVA_DRIVER_NAME=none"
Environment="VDPAU_DRIVER=va_gl"
Environment="GST_VAAPI_ALL_DRIVERS=0"
Environment="GST_PLUGIN_FEATURE_RANK=vaapih264enc:NONE,vaapih265enc:NONE,vah264enc:NONE,vah265enc:NONE"
# 完全禁用硬件3D加速,强制使用CPU软件渲染
Environment="GALLIUM_DRIVER=softpipe"
Environment="LIBGL_ALWAYS_SOFTWARE=1"

其它解决思路供参考

1. 屏蔽GPU图形相关驱动

sudo vi /etc/modprobe.d/99-no-nvidia-drm.conf

复制代码
blacklist nvidia_drm
blacklist nvidia_modeset
install nvidia_drm /bin/false
install nvidia_modeset /bin/false

sudo vi /etc/modprobe.d/nvidia-graphics-drivers-kms.conf

复制代码
options nvidia_drm modeset=0

sudo update-initramfs -u -k all
sudo reboot

2. 使用udev禁止drm访问特定GPU

sudo ls -al /dev/dri 查看所有显卡名称列表,要把计算卡屏蔽掉
sudo vi /etc/udev/rules.d/99-hide-nvidia-render.rules

复制代码
SUBSYSTEM=="drm", KERNEL=="card[1-8]*", DRIVERS=="nvidia", TAG-="seat", TAG+="uaccess"

sudo udevadm control --reload-rules
sudo udevadm trigger

3. 禁用wayland,强制使用X11

sudo vi /etc/gdm3/custom.conf

复制代码
[daemon]
WaylandEnable=false

sudo systemctl daemon-reload
sudo systemctl restart gdm

相关推荐
月夜的风吹雨4 分钟前
Linux 基础开发工具详解:从 yum 到 gdb 实战指南
linux·git·ubuntu·centos·vim
xiaobobo33301 小时前
Ubuntu 26.04下编译s5pv210芯片的linux内核源码,无法进入menuconfig界面
linux·运维·ubuntu
Cx330❀2 小时前
【Qt 核心机制篇】深度解析 Qt 信号与槽(Signals & Slots)机制:从底层原理、实战演练到 Lambda 进阶
linux·开发语言·c++·人工智能·qt·ubuntu
清 澜2 小时前
基于 LangChain 从零搭建知识库问答系统
人工智能·职场和发展·大模型·agent·知识库
wkd_00711 小时前
Ubuntu 22.04 Samba 连接故障排查记:从“用户名或密码错误”到 NTLM 版本不兼容
linux·运维·ubuntu
aicat_cn14 小时前
从预测未来到控制未来:机器人世界模型全景综述
ai·大模型
烛衔溟14 小时前
TypeScript 类的类型 —— 作为类型使用
javascript·ubuntu·typescript
❀搜不到15 小时前
Ubuntu查看指定Python程序的CPU、GPU、内存占用情况
linux·python·ubuntu
千桐科技16 小时前
qKnow 智能体构建平台开源版 2.1.1 正式发布!优化非结构化抽取、知识库召回,全面升级系统稳定性与交互体验
大模型·llm·工作流·qknow·智能体构建平台
codefan※19 小时前
一键部署私人 LLM:Ollama + Docker 极简指南
运维·docker·容器·大模型·llm·本地部署·ollama