如果你遇到系统存储空间不足,该怎么办呢?

近期有小伙伴反馈遇到系统盘存储空间不足,无从下手,今天就来带大家了解并解决这个问题!

#GpuMall智算云 #训练 #推理 #训练

实例空间不足大多数原因是因为 /root//usr/local/miniconda3/tmp/opt等目录占用空间过多导致,以及使用人员把 数据集数据 等占用空间较大文件放到了系统盘中,未放置到 /gm-data 数据盘下;/root/ 目录下一般存储着 pip 以及 conda 包管理工具的缓存,/usr/local/miniconda3 目录默认存储着虚拟环境,虚拟环境过多以及某个虚拟环境中安装包过多会导致/usr/local/miniconda3 目录过大,可以通过以下方法进行排查并进行清理。

实例的根目录磁盘使用率可以通过下面的命令进行查看,如果系统盘提示满了,可以通过如下命令进行查找具体的目录,然后进行移动或清理。

bash 复制代码
# 1.查看实例系统磁盘使用率
df -h | grep "/$" | awk '{print "系统盘使用率: "$5"\n总空间: "$2"\n已用空间: "$3"\n可用空间: "$4}'

# 2. 统计实例 / 目录下所有文件使用大小并进行排序
du -h --max-depth=1 --exclude=/proc --exclude=/gm-data --exclude=/gm-fs / | head -n -1 | sort -hr
#返回结果如下
14G     /usr
180M    /root
92M     /tmp
50M     /var
1.9M    /etc
...

# 3. 根据排序结果进一步分析具体是哪个目录占用较大,比如上面命令执行结果排名第一的为 /usr 目录
du -h --max-depth=1 /usr | head -n -1 | sort -hr
#返回结果如下
9.7G    /usr/local
3.2G    /usr/lib
130M    /usr/share
109M    /usr/bin
31M     /usr/include

# 4. 根据上述排序结果再进一步分析
du -h --max-depth=1 /usr/local | head -n -1 | sort -hr
#返回结果
5.9G    /usr/local/miniconda3   
3.9G    /usr/local/cuda-11.7   #实例系统 cuda 安装位置,这个cuda目录不可删除,如果cuda被删除,则实例中无法使用cuda,这个目录属于系统镜像层,不会统计到系统盘30G空间中
16M     /usr/local/bin
4.0K    /usr/local/sbin

提示

/usr/local/miniconda3 的安装目录以及默认安装虚拟环境目录,一般这个目录因为安装虚拟环境和包比较大导致系统盘空间被撑满的问题比较多,如果是因为 /usr/local/miniconda3 目录较大导致系统盘空间爆满,您可以通过 condaclone 功能,把安装在 /usr/local/miniconda3 目录中的虚拟环境clone/gm-data/ 目录下,然后再删除掉 /usr/local/miniconda3 目录下的虚拟环境来释放系统盘空间。

具体操作如下:

bash 复制代码
#查看当前虚拟环境
conda info -e 

#从gpumall虚拟环境克隆一个新的环境,新的虚拟环境目录在/gm-data/gm-env
conda create -p /gm-data/gm-env --clone gpumall

#进入新的虚拟环境中,验证克隆的环境是否可用
conda activate /gm-data/gm-env 

#验证无问题后,卸载原来的老虚拟环境来释放系统盘空间
conda remove -n gpumall --all

数据盘空间不足怎么办?

swift 复制代码
#查看实例数据磁盘使用率
df -h | grep "/gm-data$" | awk '{print "数据盘使用率: "$5"\n总空间: "$2"\n已用空间: "$3"\n可用空间: "$4}'

如果可用空间较小,则可以到 GpuMall控制台 找到对应实例,点击更多-》扩缩容数据盘-》填入扩容后的容量,然后点击确定来进行扩容数据盘。

编辑

编辑

相关推荐
Do_GH1 小时前
【Linux】07.Ubuntu开发环境部署
linux·运维·ubuntu
勤源科技2 小时前
全链路智能运维中的实时流处理架构与状态管理技术
运维·架构
CHH32132 小时前
在 Mac/linux 的 VSCode 中使用Remote-SSH远程连接 Windows
linux·windows·vscode·macos
tryCbest2 小时前
Linux使用Docker部署项目后期更新
linux·运维·docker
孤独得猿2 小时前
聊天室项目开发——etcd的安装和使用
linux·服务器·c++·etcd
siriuuus2 小时前
Linux Tomcat 简单使用及 Nginx 反向代理
linux·nginx·tomcat
呱呱巨基3 小时前
vim编辑器
linux·笔记·学习·编辑器·vim
竹等寒3 小时前
Linux-网络安全私房菜(二)
linux·服务器·web安全
YuCaiH4 小时前
Linux文件处理
linux·笔记·嵌入式
早睡冠军候选人4 小时前
Ansible学习----Ansible Playbook
运维·服务器·学习·云原生·容器·ansible