【bug记录】清除僵尸进程,释放GPU显存

目录

  • [1. 为什么会出现这种情况?](#1. 为什么会出现这种情况?)
  • [2. 解决方案](#2. 解决方案)
    • [方法一:使用 fuser 命令](#方法一:使用 fuser 命令)
    • 方法二:
  • [3. 小贴士](#3. 小贴士)

在进行深度学习或其他需要GPU支持的任务时,我们有时会发现虽然没有可见的进程在执行,但GPU资源却意外地被占用。这种情况往往会阻碍我们的工作进度,因为新的任务无法启动。如果你遇到了这种状况,不要担心,这里有一些方法可以帮助你解决这个问题。


1. 为什么会出现这种情况?

这种情况通常是由于所谓的"僵尸进程"引起的。僵尸进程是指那些已经完成任务但没有正确关闭的进程,它们可能因为各种原因未能释放占用的GPU资源。这会导致资源浪费,并且阻碍其他任务的执行。

2. 解决方案

虽然重启服务器是一种直观的解决方案,但大多数情况下,我们无法因为权限不足而执行此操作。因此,我们需要寻找其他方法来解决这个问题。

方法一:使用 fuser 命令

  1. 打开你的终端。

  2. 输入命令 fuser -v /dev/nvidia* 查看当前占用GPU资源的进程。

  3. 一旦找到这些进程,你可以使用 kill 命令来终止它们。例如,如图,我的进程号是94285,你可以执行 kill -9 94285 来强制终止它。

通过这种方式,你可以释放被僵尸进程占用的GPU资源,恢复系统的正常运行。

方法二:

reboot大法

3. 小贴士

  1. 在执行这些操作之前,请确保你有足够的权限来终止这些进程,并且要小心不要终止那些重要的系统进程。此外,保持定期检查系统状态的习惯,可以帮助你避免资源被长时间占用的情况。
  2. fuser 是一个强大的Unix和类Unix系统命令行工具,它用于显示哪些用户和进程正在使用特定的文件、套接字或文件系统。在我们的场景中,fuser 可以帮助我们找出哪些进程正在使用特定的GPU设备文件。

相关推荐
遇见火星16 小时前
centos7和centos8设置本地镜像为yum安装源的方法
linux·运维·服务器
piaopiaolanghua16 小时前
[Ai问答] Docker是否支持跨架构镜像,譬如ARM/X86
linux·运维·服务器
木木_王16 小时前
嵌入式Linux学习 | 数据结构(Day06)全解:线性表 + 栈队列 + 静态库 / 动态库(原理 + 代码 + 编译实战 + 易错点)
linux·数据结构·笔记·学习
howareyou2316 小时前
Linux中用户态的函数是如何通过系统调用进入内核态的(二)
linux·服务器·linux系统调用
杨云龙UP16 小时前
Oracle 19c多租户架构下设置用户密码永不过期及登录锁定策略说明_20260430
linux·运维·服务器·数据库·oracle
雨声不在17 小时前
不连接 USB 远程连接 Android 设备
linux
hweiyu0017 小时前
Linux命令:nc
linux·运维·服务器
东方隐侠安全团队-千里17 小时前
CVE-2026-31431 Copy Fail:Linux 本地提权漏洞原理、影响面与排查修复建议
linux·运维·服务器
峥无17 小时前
Linux 文件系统底层探秘:磁盘物理结构→inode→Ext 架构全链路
linux·运维·笔记
minji...17 小时前
Linux 网络套接字编程(七)TCP服务端和客户端的实现——网络版本计算器
linux·运维·服务器·网络·c++·tcp/ip·udp