如果你遇到系统存储空间不足,该怎么办呢?

近期有小伙伴反馈遇到系统盘存储空间不足,无从下手,今天就来带大家了解并解决这个问题!

#GpuMall智算云 #训练 #推理 #训练

实例空间不足大多数原因是因为 /root//usr/local/miniconda3/tmp/opt等目录占用空间过多导致,以及使用人员把 数据集数据 等占用空间较大文件放到了系统盘中,未放置到 /gm-data 数据盘下;/root/ 目录下一般存储着 pip 以及 conda 包管理工具的缓存,/usr/local/miniconda3 目录默认存储着虚拟环境,虚拟环境过多以及某个虚拟环境中安装包过多会导致/usr/local/miniconda3 目录过大,可以通过以下方法进行排查并进行清理。

实例的根目录磁盘使用率可以通过下面的命令进行查看,如果系统盘提示满了,可以通过如下命令进行查找具体的目录,然后进行移动或清理。

bash 复制代码
# 1.查看实例系统磁盘使用率
df -h | grep "/$" | awk '{print "系统盘使用率: "$5"\n总空间: "$2"\n已用空间: "$3"\n可用空间: "$4}'

# 2. 统计实例 / 目录下所有文件使用大小并进行排序
du -h --max-depth=1 --exclude=/proc --exclude=/gm-data --exclude=/gm-fs / | head -n -1 | sort -hr
#返回结果如下
14G     /usr
180M    /root
92M     /tmp
50M     /var
1.9M    /etc
...

# 3. 根据排序结果进一步分析具体是哪个目录占用较大,比如上面命令执行结果排名第一的为 /usr 目录
du -h --max-depth=1 /usr | head -n -1 | sort -hr
#返回结果如下
9.7G    /usr/local
3.2G    /usr/lib
130M    /usr/share
109M    /usr/bin
31M     /usr/include

# 4. 根据上述排序结果再进一步分析
du -h --max-depth=1 /usr/local | head -n -1 | sort -hr
#返回结果
5.9G    /usr/local/miniconda3   
3.9G    /usr/local/cuda-11.7   #实例系统 cuda 安装位置,这个cuda目录不可删除,如果cuda被删除,则实例中无法使用cuda,这个目录属于系统镜像层,不会统计到系统盘30G空间中
16M     /usr/local/bin
4.0K    /usr/local/sbin

提示

/usr/local/miniconda3 的安装目录以及默认安装虚拟环境目录,一般这个目录因为安装虚拟环境和包比较大导致系统盘空间被撑满的问题比较多,如果是因为 /usr/local/miniconda3 目录较大导致系统盘空间爆满,您可以通过 condaclone 功能,把安装在 /usr/local/miniconda3 目录中的虚拟环境clone/gm-data/ 目录下,然后再删除掉 /usr/local/miniconda3 目录下的虚拟环境来释放系统盘空间。

具体操作如下:

bash 复制代码
#查看当前虚拟环境
conda info -e 

#从gpumall虚拟环境克隆一个新的环境,新的虚拟环境目录在/gm-data/gm-env
conda create -p /gm-data/gm-env --clone gpumall

#进入新的虚拟环境中,验证克隆的环境是否可用
conda activate /gm-data/gm-env 

#验证无问题后,卸载原来的老虚拟环境来释放系统盘空间
conda remove -n gpumall --all

数据盘空间不足怎么办?

swift 复制代码
#查看实例数据磁盘使用率
df -h | grep "/gm-data$" | awk '{print "数据盘使用率: "$5"\n总空间: "$2"\n已用空间: "$3"\n可用空间: "$4}'

如果可用空间较小,则可以到 GpuMall控制台 找到对应实例,点击更多-》扩缩容数据盘-》填入扩容后的容量,然后点击确定来进行扩容数据盘。

编辑

编辑

相关推荐
Nick.Q15 小时前
vim插件的管理与离线安装
linux·编辑器·vim
J2虾虾16 小时前
Docker启动超时,吓得我一身汗
运维·docker·容器
一生只为赢17 小时前
通俗易懂:ARM指令的寻址方式(三)
运维·arm开发·数据结构·嵌入式实时数据库
运维行者_17 小时前
2026 技术升级,OpManager 新增 AI 网络拓扑与带宽预测功能
运维·网络·数据库·人工智能·安全·web安全·自动化
头发还没掉光光17 小时前
HTTP协议从基础到实战全解析
linux·服务器·网络·c++·网络协议·http
液态不合群17 小时前
Nginx多服务静态资源路径冲突解决方案
运维·nginx
小白同学_C17 小时前
Lab2-system calls && MIT6.1810操作系统工程【持续更新】
linux·c/c++·操作系统os
物理与数学18 小时前
linux内核 struct super_block
linux·linux内核
Getgit18 小时前
Linux 下查看 DNS 配置信息的常用命令详解
linux·运维·服务器·面试·maven
数通工程师18 小时前
企业级硬件防火墙基础配置实战:从初始化到规则上线全流程
运维·网络·网络协议·tcp/ip·华为