pytorch训练的时候 shm共享内存不足,导致训练停止

1.查看shm情况

bash 复制代码
df -h /dev/shm

内存已经满了,因为之前训练多次训练意外停止到shm中的缓存不能及时被清理

2、手动清理shm

依然没被释放

3、查看关联的进程,一个一个kill

bash 复制代码
lsof |grep deleted

kill -9 46619 44618 44617 。。。。。

4、搞定

相关推荐
勤奋的小懒猪3 分钟前
Halcon应用:相机标定
图像处理·人工智能·计算机视觉
脑极体4 分钟前
寻找AI大模型时代的存力破壁人:华为的行与思
人工智能·华为
loriby4 分钟前
卷积神经网络:视觉炼金术士的数学魔法
人工智能·神经网络·cnn
MorleyOlsen4 分钟前
【数字图像处理】机器视觉(1)
人工智能·计算机视觉
COOCC15 分钟前
PyTorch 实战:Transformer 模型搭建全解析
人工智能·pytorch·python·深度学习·神经网络·目标检测·transformer
喜欢吃豆9 分钟前
如何调用大语言模型的API?
人工智能·语言模型·自然语言处理
Dovis(誓平步青云)23 分钟前
Cephalon端脑云:神经形态计算+边缘AI·重定义云端算力
图像处理·人工智能·学习·云原生·ai作画·边缘计算·机器翻译
这里有鱼汤33 分钟前
95%开发者未充分利用的Python特性:解包操作性能实测与最佳实践
python
这里有鱼汤33 分钟前
🎨 Matplotlib十大高级绘图技巧,学会了升职加薪(不骗你)
后端·python
www_pp_33 分钟前
# 利用迁移学习优化食物分类模型:基于ResNet18的实践
人工智能·深度学习·迁移学习