【解决】多卡服务器GPU不能多用户同时使用的问题

一台多卡服务器,为提高利用效率,通常有多个用户使用。

假设有一台服务器A ,分别有0,1,2,3四张卡,我们有两个用户:甲和乙。

当甲启动卡0时,乙想用卡1,2,3。但是乙的进程一直卡住了,等甲进程完全结束后也未曾启动。白白浪费了其他3倍的GPU hours,人神共愤。但是Debug的时候又不知道问题出在哪里。


那么这篇文章提供一个可能的解决方案:

大概率是因为nvidia-mps进程导致多用户不能同时使用GPU
解决办法如下

先查看mps进程号:

sh 复制代码
ps -ef | grep nvidia

看到:

复制代码
root 1234 xxx /usr/bin/nvidia-cuda-mps-server

第二列就是进程号,直接用root权限kill掉这个进程:

sh 复制代码
sudo kill -9 1234

这种情况,几乎就解决了多用户用卡冲突的问题~

另外,如果还想掰细一点,即同一张卡也被多个用户使用,实现最大程度地共享使用,那就设置:

sh 复制代码
nvidia-smi -i 0 -c DEFAULT
nvidia-smi -i 1 -c DEFAULT
nvidia-smi -i 2 -c DEFAULT
nvidia-smi -i 3 -c DEFAULT

分别将4张卡都设置为DEFAULT模式。如果想独享某张卡,可以设置为EXCLUSIVE_PROCESS,假如我想让卡2被独享,则:

sh 复制代码
nvidia-smi -i 2 -c EXCLUSIVE_PROCESS

有问题请留言交流~

相关推荐
_下雨天.31 分钟前
LVS负载均衡
服务器·负载均衡·lvs
小成202303202653 小时前
Linux高级02
linux·开发语言
mounter6253 小时前
【硬核前沿】CXL 深度解析:重塑数据中心架构的“高速公路”,Linux 内核如何应对挑战?-- CXL 协议详解与 LSF/MM 最新动态
linux·服务器·网络·架构·kernel
++==3 小时前
Linux 进程间通信与线程同步技术详解:IPC 机制、线程 API、同步工具与经典同步问题
linux
特长腿特长4 小时前
centos、ubantu系列机的用户和用户组的结构是什么?具体怎么配置?用户组权限怎么使用?这篇文章持续更新,帮助你复习linux的基础知识
linux·运维·centos
zzzyyy5384 小时前
Linux环境变量
linux·运维·服务器
pluvium274 小时前
记对 xonsh shell 的使用, 脚本编写, 迁移及调优
linux·python·shell·xonsh
无级程序员4 小时前
centos7 安装 llvm-toolset-7-clang出错的问题解决
linux·centos
kebeiovo4 小时前
atomic原子操作实现无锁队列
服务器·c++
赛博云推-Twitter热门霸屏工具5 小时前
Twitter运营完整流程:从0到引流获客全流程拆解(2026)
运维·安全·自动化·媒体·twitter