pytorch训练的时候 shm共享内存不足,导致训练停止

1.查看shm情况

bash 复制代码
df -h /dev/shm

内存已经满了,因为之前训练多次训练意外停止到shm中的缓存不能及时被清理

2、手动清理shm

依然没被释放

3、查看关联的进程,一个一个kill

bash 复制代码
lsof |grep deleted

kill -9 46619 44618 44617 。。。。。

4、搞定

相关推荐
endcy20169 小时前
基于Spring AI的RAG和智能体应用实践
人工智能·ai·系统架构
Blossom.1189 小时前
移动端部署噩梦终结者:动态稀疏视觉Transformer的量化实战
java·人工智能·python·深度学习·算法·机器学习·transformer
FPGA小迷弟9 小时前
ChatGPT回答用AI怎么怎么赚钱
大数据·人工智能
轻微的风格艾丝凡9 小时前
卷积的直观理解
人工智能·深度学习·神经网络·算法·计算机视觉·matlab·cnn
AiXed10 小时前
PC微信协议之AES-192-GCM算法
前端·数据库·python
月下倩影时10 小时前
视觉进阶篇——机器学习训练过程(手写数字识别,量大管饱需要耐心)
人工智能·学习·机器学习
PixelMind10 小时前
【超分辨率专题】HYPIR:扩散模型先验与 GAN 对抗训练相结合的新型图像复原框架
人工智能·生成对抗网络·扩散模型·图像复原
灵光通码10 小时前
神经网络基本概念
python·神经网络
说私域10 小时前
从裂变能力竞争到技术水平竞争:开源AI智能名片链动2+1模式S2B2C商城小程序对微商企业竞争格局的重塑
人工智能·小程序·开源
xybDIY10 小时前
基于 Tuya.AI 开源的大模型构建智能聊天机器人
人工智能·机器人·开源