【深度学习】训练过程中一个OOM的问题,太难查了

现象:

各位大佬又遇到过ubuntu的这个问题么?

现象是在训练过程中,ssh 上不去了,能ping通,没死机,但是ubunutu 的pc侧的显示器,鼠标啥都不好用了。只能重启。

问题原因:

OOM了95G,尼玛!!!!

pytorch爆内存了,然后journald假死了,在journald被watchdog干掉之后,系统就崩溃了。

这种规模的爆内存一般,即使被oom kill了,也要卡半天的,确实会这样,能不能配一点虚拟内存上去啊。

设置swap交换空间:

bash 复制代码
(base) justin@justin-System-Product-Name:~$ sudo dd if=/dev/zero of=/swapfile bs                                                                  =1M count=327680
dd: failed to open '/swapfile': Text file busy
(base) justin@justin-System-Product-Name:~$ sudo swapoff
swapoff: bad usage
Try 'swapoff --help' for more information.
(base) justin@justin-System-Product-Name:~$ swapoff --help

Usage:
 swapoff [options] [<spec>]

Disable devices and files for paging and swapping.

Options:
 -a, --all              disable all swaps from /proc/swaps
 -v, --verbose          verbose mode

 -h, --help             display this help
 -V, --version          display version

The <spec> parameter:
 -L <label>             LABEL of device to be used
 -U <uuid>              UUID of device to be used
 LABEL=<label>          LABEL of device to be used
 UUID=<uuid>            UUID of device to be used
 <device>               name of device to be used
 <file>                 name of file to be used

For more details see swapoff(8).
(base) justin@justin-System-Product-Name:~$ sudo swapoff -a
(base) justin@justin-System-Product-Name:~$ sudo dd if=/dev/zero of=/swapfile bs                                                                  =1M count=327680

我的swap交换空间2GB, 可以用 free -m 查看

然后 先关闭:

sudo swapoff -a

然后写入:

sudo dd if=/dev/zero of=/swapfile bs =1M count=327680

写了32G

bash 复制代码
32768+0 records in
32768+0 records out
34359738368 bytes (34 GB, 32 GiB) copied, 371.924 s, 92.4 MB/s

sudo chmod 600 /swapfile

sudo mkswap /swapfile

bash 复制代码
(base) justin@justin-System-Product-Name:~$ sudo chmod 600 /swapfile
(base) justin@justin-System-Product-Name:~$ sudo mkswap /swapfile
Setting up swapspace version 1, size = 32 GiB (34359734272 bytes)
no label, UUID=e8a65557-0a65-4820-808b-e8924548ec90
(base) justin@justin-System-Product-Name:~$

启用交换空间:

sudo swapon /swapfile

检查交换空间

sudo swapon --show

永久设置:

如果希望系统在每次启动时自动启用交换空间,可以将下面的行添加到 /etc/fstab 文件中:

echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

这将确保在系统启动时,交换文件会自动被挂载。

最后,你可以使用以下命令来检查交换空间的使用情况:

free -h

这将显示系统的内存和交换空间使用情况。确保交换空间处于正常运行状态,以提供额外的内存支持。

ref:https://blog.csdn.net/qq_42244167/article/details/135755665?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword\~default-1-135755665-blog-128822763.235^v43^pc_blog_bottom_relevance_base2\&spm=1001.2101.3001.4242.2\&utm_relevant_index=4

相关推荐
封步宇AIGC7 分钟前
量化交易系统开发-实时行情自动化交易-Okex K线数据
人工智能·python·机器学习·数据挖掘
封步宇AIGC10 分钟前
量化交易系统开发-实时行情自动化交易-Okex交易数据
人工智能·python·机器学习·数据挖掘
z千鑫12 分钟前
【人工智能】利用大语言模型(LLM)实现机器学习模型选择与实验的自动化
人工智能·gpt·机器学习·语言模型·自然语言处理·自动化·codemoss
shelly聊AI13 分钟前
AI赋能财务管理,AI技术助力企业自动化处理财务数据
人工智能·财务管理
波点兔14 分钟前
【部署glm4】属性找不到、参数错误问题解决(思路:修改模型包版本)
人工智能·python·机器学习·本地部署大模型·chatglm4
佚明zj1 小时前
全卷积和全连接
人工智能·深度学习
qzhqbb4 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨4 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041084 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌5 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画