pytorch训练的时候 shm共享内存不足,导致训练停止

1.查看shm情况

bash 复制代码
df -h /dev/shm

内存已经满了,因为之前训练多次训练意外停止到shm中的缓存不能及时被清理

2、手动清理shm

依然没被释放

3、查看关联的进程,一个一个kill

bash 复制代码
lsof |grep deleted

kill -9 46619 44618 44617 。。。。。

4、搞定

相关推荐
SmartRadio11 分钟前
在CH585M代码中如何精细化配置PMU(电源管理单元)和RAM保留
linux·c语言·开发语言·人工智能·单片机·嵌入式硬件·lora
旦莫16 分钟前
Pytest教程:Pytest与主流测试框架对比
人工智能·python·pytest
●VON21 分钟前
从模型到价值:MLOps 工程体系全景解析
人工智能·学习·制造·von
数据大魔方27 分钟前
【期货量化实战】螺纹钢量化交易指南:品种特性与策略实战(TqSdk完整方案)
python·算法·github·程序员创富·期货程序化·期货量化·交易策略实战
智慧地球(AI·Earth)43 分钟前
Codex配置问题解析:wire_api格式不匹配导致的“Reconnecting...”循环
开发语言·人工智能·vscode·codex·claude code
旻璿gg44 分钟前
paddleocr、paddleocrvl、ppocrv5
python
清水白石0081 小时前
手写超速 CSV 解析器:利用 multiprocessing 与 mmap 实现 10 倍 Pandas 加速
python·pandas
GISer_Jing1 小时前
AI:多智能体协作与记忆管理
人工智能·设计模式·aigc
qq_411262421 小时前
纯图像传感器(只出像素),还是 Himax WiseEye/WE1/WE-I Plus 这类带处理器、能在端侧跑模型并输出“metadata”的模块
人工智能·嵌入式硬件·esp32·四博智联
InfiSight智睿视界1 小时前
门店智能体技术如何破解美容美发连锁的“标准执行困境”
大数据·运维·人工智能