【解决】多卡服务器GPU不能多用户同时使用的问题

一台多卡服务器,为提高利用效率,通常有多个用户使用。

假设有一台服务器A ,分别有0,1,2,3四张卡,我们有两个用户:甲和乙。

当甲启动卡0时,乙想用卡1,2,3。但是乙的进程一直卡住了,等甲进程完全结束后也未曾启动。白白浪费了其他3倍的GPU hours,人神共愤。但是Debug的时候又不知道问题出在哪里。


那么这篇文章提供一个可能的解决方案:

大概率是因为nvidia-mps进程导致多用户不能同时使用GPU
解决办法如下

先查看mps进程号:

sh 复制代码
ps -ef | grep nvidia

看到:

复制代码
root 1234 xxx /usr/bin/nvidia-cuda-mps-server

第二列就是进程号,直接用root权限kill掉这个进程:

sh 复制代码
sudo kill -9 1234

这种情况,几乎就解决了多用户用卡冲突的问题~

另外,如果还想掰细一点,即同一张卡也被多个用户使用,实现最大程度地共享使用,那就设置:

sh 复制代码
nvidia-smi -i 0 -c DEFAULT
nvidia-smi -i 1 -c DEFAULT
nvidia-smi -i 2 -c DEFAULT
nvidia-smi -i 3 -c DEFAULT

分别将4张卡都设置为DEFAULT模式。如果想独享某张卡,可以设置为EXCLUSIVE_PROCESS,假如我想让卡2被独享,则:

sh 复制代码
nvidia-smi -i 2 -c EXCLUSIVE_PROCESS

有问题请留言交流~

相关推荐
Web极客码1 分钟前
WordPress博客关键词
服务器·wordpress·网站加速
Fleshy数模32 分钟前
MySQL 表创建全攻略:Navicat 图形化与 Xshell 命令行双模式实践
linux·mysql
神梦流1 小时前
GE 引擎的非标准数据流处理:稀疏张量与自定义算子在图优化中的语义保持
linux·运维·服务器
兜兜转转了多少年1 小时前
从脚本到系统:2026 年 AI 代理驱动的 Shell 自动化
运维·人工智能·自动化
.小墨迹2 小时前
apollo学习之借道超车的速度规划
linux·c++·学习·算法·ubuntu
Lsir10110_2 小时前
【Linux】中断 —— 操作系统的运行基石
linux·运维·嵌入式硬件
Sheffield2 小时前
command和shell模块到底区别在哪?
linux·云计算·ansible
历程里程碑2 小时前
Linux20 : IO
linux·c语言·开发语言·数据结构·c++·算法
郝学胜-神的一滴2 小时前
深入浅出:使用Linux系统函数构建高性能TCP服务器
linux·服务器·开发语言·网络·c++·tcp/ip·程序人生
承渊政道2 小时前
Linux系统学习【Linux系统的进度条实现、版本控制器git和调试器gdb介绍】
linux·开发语言·笔记·git·学习·gitee