如果你遇到系统存储空间不足,该怎么办呢?

近期有小伙伴反馈遇到系统盘存储空间不足,无从下手,今天就来带大家了解并解决这个问题!

#GpuMall智算云 #训练 #推理 #训练

实例空间不足大多数原因是因为 /root//usr/local/miniconda3/tmp/opt等目录占用空间过多导致,以及使用人员把 数据集数据 等占用空间较大文件放到了系统盘中,未放置到 /gm-data 数据盘下;/root/ 目录下一般存储着 pip 以及 conda 包管理工具的缓存,/usr/local/miniconda3 目录默认存储着虚拟环境,虚拟环境过多以及某个虚拟环境中安装包过多会导致/usr/local/miniconda3 目录过大,可以通过以下方法进行排查并进行清理。

实例的根目录磁盘使用率可以通过下面的命令进行查看,如果系统盘提示满了,可以通过如下命令进行查找具体的目录,然后进行移动或清理。

bash 复制代码
# 1.查看实例系统磁盘使用率
df -h | grep "/$" | awk '{print "系统盘使用率: "$5"\n总空间: "$2"\n已用空间: "$3"\n可用空间: "$4}'

# 2. 统计实例 / 目录下所有文件使用大小并进行排序
du -h --max-depth=1 --exclude=/proc --exclude=/gm-data --exclude=/gm-fs / | head -n -1 | sort -hr
#返回结果如下
14G     /usr
180M    /root
92M     /tmp
50M     /var
1.9M    /etc
...

# 3. 根据排序结果进一步分析具体是哪个目录占用较大,比如上面命令执行结果排名第一的为 /usr 目录
du -h --max-depth=1 /usr | head -n -1 | sort -hr
#返回结果如下
9.7G    /usr/local
3.2G    /usr/lib
130M    /usr/share
109M    /usr/bin
31M     /usr/include

# 4. 根据上述排序结果再进一步分析
du -h --max-depth=1 /usr/local | head -n -1 | sort -hr
#返回结果
5.9G    /usr/local/miniconda3   
3.9G    /usr/local/cuda-11.7   #实例系统 cuda 安装位置,这个cuda目录不可删除,如果cuda被删除,则实例中无法使用cuda,这个目录属于系统镜像层,不会统计到系统盘30G空间中
16M     /usr/local/bin
4.0K    /usr/local/sbin

提示

/usr/local/miniconda3 的安装目录以及默认安装虚拟环境目录,一般这个目录因为安装虚拟环境和包比较大导致系统盘空间被撑满的问题比较多,如果是因为 /usr/local/miniconda3 目录较大导致系统盘空间爆满,您可以通过 condaclone 功能,把安装在 /usr/local/miniconda3 目录中的虚拟环境clone/gm-data/ 目录下,然后再删除掉 /usr/local/miniconda3 目录下的虚拟环境来释放系统盘空间。

具体操作如下:

bash 复制代码
#查看当前虚拟环境
conda info -e 

#从gpumall虚拟环境克隆一个新的环境,新的虚拟环境目录在/gm-data/gm-env
conda create -p /gm-data/gm-env --clone gpumall

#进入新的虚拟环境中,验证克隆的环境是否可用
conda activate /gm-data/gm-env 

#验证无问题后,卸载原来的老虚拟环境来释放系统盘空间
conda remove -n gpumall --all

数据盘空间不足怎么办?

swift 复制代码
#查看实例数据磁盘使用率
df -h | grep "/gm-data$" | awk '{print "数据盘使用率: "$5"\n总空间: "$2"\n已用空间: "$3"\n可用空间: "$4}'

如果可用空间较小,则可以到 GpuMall控制台 找到对应实例,点击更多-》扩缩容数据盘-》填入扩容后的容量,然后点击确定来进行扩容数据盘。

编辑

编辑

相关推荐
二等饼干~za8986689 分钟前
2026 主流 GEO 源码厂商实测:云罗 GEO、摘星智能、棋引科技技术与落地能力对比
大数据·运维·科技
Championship.23.2420 分钟前
Linux 3.0 音频机制深度解析:ALSA基础架构与传统音频驱动模型
linux·运维·音视频·alsa
Tian_Hang1 小时前
Linux基础知识(四)
linux·ide·驱动开发·计算机视觉·硬件工程·动画
无证驾驶梁嗖嗖1 小时前
ubuntu下测试nvme带宽和健康度
运维
HLC++1 小时前
Linux文件操作
linux·运维·服务器
InfraSense1 小时前
多门店运维闭环全景架构:监控+告警+工单+SLA+复盘,一套最小可用系统怎么串起来
运维·msp
Sirius Wu1 小时前
当前主流 RAG 架构全景及轻量级向量库选型深度分析
运维·人工智能·架构·aigc
晚风予卿云月1 小时前
【Linux】进程控制(二)——进程等待 全方位详解
linux·运维·服务器·进程控制·进程等待
上天_去_做颗惺星 EVE_BLUE1 小时前
【新 Linux 服务器上手全攻略】系统巡检、存储规划与开发环境初始化
linux·运维·服务器·ubuntu·macos·centos
Titan20242 小时前
Linux文件系统
linux·服务器