pytorch训练的时候 shm共享内存不足,导致训练停止

1.查看shm情况

bash 复制代码
df -h /dev/shm

内存已经满了,因为之前训练多次训练意外停止到shm中的缓存不能及时被清理

2、手动清理shm

依然没被释放

3、查看关联的进程,一个一个kill

bash 复制代码
lsof |grep deleted

kill -9 46619 44618 44617 。。。。。

4、搞定

相关推荐
新智元1 天前
Ilya震撼发声!OpenAI前主管亲证:AGI已觉醒,人类还在装睡
人工智能·openai
胡耀超1 天前
数据安全工具手册——便捷实用的安全工具集-20251014
python·安全·数据安全·加密·数据库安全·脱敏·开源工具
朱昆鹏1 天前
如何通过sessionKey 登录 Claude
前端·javascript·人工智能
汉堡go1 天前
1、机器学习与深度学习
人工智能·深度学习·机器学习
shx66661 天前
python杂记
开发语言·python
只是懒得想了1 天前
使用 Gensim 进行主题建模(LDA)与词向量训练(Word2Vec)的完整指南
人工智能·自然语言处理·nlp·word2vec·gensim
johnny2331 天前
OpenAI系列模型介绍、API使用
人工智能
闭着眼睛学算法1 天前
【双机位A卷】华为OD笔试之【模拟】双机位A-新学校选址【Py/Java/C++/C/JS/Go六种语言】【欧弟算法】全网注释最详细分类最全的华子OD真题题解
java·c语言·javascript·c++·python·算法·华为od
KKKlucifer1 天前
生成式 AI 冲击下,网络安全如何破局?
网络·人工智能·web安全
Dxy12393102161 天前
python如何使用nacos
开发语言·网络·python