如果你遇到系统存储空间不足,该怎么办呢?

近期有小伙伴反馈遇到系统盘存储空间不足,无从下手,今天就来带大家了解并解决这个问题!

#GpuMall智算云 #训练 #推理 #训练

实例空间不足大多数原因是因为 /root//usr/local/miniconda3/tmp/opt等目录占用空间过多导致,以及使用人员把 数据集数据 等占用空间较大文件放到了系统盘中,未放置到 /gm-data 数据盘下;/root/ 目录下一般存储着 pip 以及 conda 包管理工具的缓存,/usr/local/miniconda3 目录默认存储着虚拟环境,虚拟环境过多以及某个虚拟环境中安装包过多会导致/usr/local/miniconda3 目录过大,可以通过以下方法进行排查并进行清理。

实例的根目录磁盘使用率可以通过下面的命令进行查看,如果系统盘提示满了,可以通过如下命令进行查找具体的目录,然后进行移动或清理。

bash 复制代码
# 1.查看实例系统磁盘使用率
df -h | grep "/$" | awk '{print "系统盘使用率: "$5"\n总空间: "$2"\n已用空间: "$3"\n可用空间: "$4}'

# 2. 统计实例 / 目录下所有文件使用大小并进行排序
du -h --max-depth=1 --exclude=/proc --exclude=/gm-data --exclude=/gm-fs / | head -n -1 | sort -hr
#返回结果如下
14G     /usr
180M    /root
92M     /tmp
50M     /var
1.9M    /etc
...

# 3. 根据排序结果进一步分析具体是哪个目录占用较大,比如上面命令执行结果排名第一的为 /usr 目录
du -h --max-depth=1 /usr | head -n -1 | sort -hr
#返回结果如下
9.7G    /usr/local
3.2G    /usr/lib
130M    /usr/share
109M    /usr/bin
31M     /usr/include

# 4. 根据上述排序结果再进一步分析
du -h --max-depth=1 /usr/local | head -n -1 | sort -hr
#返回结果
5.9G    /usr/local/miniconda3   
3.9G    /usr/local/cuda-11.7   #实例系统 cuda 安装位置,这个cuda目录不可删除,如果cuda被删除,则实例中无法使用cuda,这个目录属于系统镜像层,不会统计到系统盘30G空间中
16M     /usr/local/bin
4.0K    /usr/local/sbin

提示

/usr/local/miniconda3 的安装目录以及默认安装虚拟环境目录,一般这个目录因为安装虚拟环境和包比较大导致系统盘空间被撑满的问题比较多,如果是因为 /usr/local/miniconda3 目录较大导致系统盘空间爆满,您可以通过 condaclone 功能,把安装在 /usr/local/miniconda3 目录中的虚拟环境clone/gm-data/ 目录下,然后再删除掉 /usr/local/miniconda3 目录下的虚拟环境来释放系统盘空间。

具体操作如下:

bash 复制代码
#查看当前虚拟环境
conda info -e 

#从gpumall虚拟环境克隆一个新的环境,新的虚拟环境目录在/gm-data/gm-env
conda create -p /gm-data/gm-env --clone gpumall

#进入新的虚拟环境中,验证克隆的环境是否可用
conda activate /gm-data/gm-env 

#验证无问题后,卸载原来的老虚拟环境来释放系统盘空间
conda remove -n gpumall --all

数据盘空间不足怎么办?

swift 复制代码
#查看实例数据磁盘使用率
df -h | grep "/gm-data$" | awk '{print "数据盘使用率: "$5"\n总空间: "$2"\n已用空间: "$3"\n可用空间: "$4}'

如果可用空间较小,则可以到 GpuMall控制台 找到对应实例,点击更多-》扩缩容数据盘-》填入扩容后的容量,然后点击确定来进行扩容数据盘。

编辑

编辑

相关推荐
高梦轩3 小时前
MySQL高可用
android·运维·数据库
hsjcjh6 小时前
Nodemailer使用教程:在Node.js中发送电子邮件
linux·运维·node.js
没有梦想的咸鱼185-1037-16637 小时前
北斗高精度数据解算:破解城市峡谷/长基线/无网区难题,从毫米级定位到自动化交付——(GAMIT/GLOBK底层核心解算技术方法)
运维·arcgis·数据分析·自动化
不怕犯错,就怕不做7 小时前
linux 如何查看自己的帐号密码及samba的帐号和密码
linux·运维·服务器
实在智能RPA7 小时前
Agent 在物流行业能实现哪些自动化?——深度拆解 AI Agent 驱动的智慧物流新范式
运维·人工智能·ai·自动化
地下核武7 小时前
Ubuntu 24.04 在线安装 Qt 6.10.2 后 Qt Creator 无法启动问题记录与解决
linux·qt·ubuntu
张3238 小时前
Linux 启动过程
linux·运维
三万棵雪松8 小时前
【Linux 物联网网关主控系统-Linux主控部分(二)】
linux·嵌入式linux
chinesegf8 小时前
ubuntu建虚拟环境制作docker容器
linux·ubuntu·docker
Stack Overflow?Tan908 小时前
标注软件labelImg在linux下鼠标滚轮闪退解决办法
linux·labelimg