pytorch训练的时候 shm共享内存不足,导致训练停止

1.查看shm情况

bash 复制代码
df -h /dev/shm

内存已经满了,因为之前训练多次训练意外停止到shm中的缓存不能及时被清理

2、手动清理shm

依然没被释放

3、查看关联的进程,一个一个kill

bash 复制代码
lsof |grep deleted

kill -9 46619 44618 44617 。。。。。

4、搞定

相关推荐
m0_571186602 分钟前
第五十周周报
人工智能
寰宇视讯11 分钟前
解码AI未来 2026世界制造业大会人工智能与机器人展9月启幕
人工智能·机器人
2601_9516437716 分钟前
Python第一,Java跌出前三,C语言杀回来了
java·c语言·python·编程语言排行·技术趋势
冬奇Lab16 分钟前
每日一个开源项目(第132篇):SkillSpector - 安装 AI Agent Skill 之前先扫一遍
人工智能·开源·agent
冬奇Lab18 分钟前
如何让 AI Skill 质量有据可查?Benchmark 驱动的评测体系设计
人工智能·agent
腾科IT教育1 小时前
Spring AI Alibaba 向量(VectorStore)
人工智能·spring·microsoft
IT_陈寒2 小时前
React中useEffect依赖项这个坑我居然踩了三天
前端·人工智能·后端
江畔柳前堤2 小时前
github实战指南02-仓库管理与 Issue
人工智能·深度学习·github·信号处理·caffe·wps·issue
邵宇然2 小时前
内存分配优化:基于 Unsafe 指针与内存对齐的 Rust 区域分配器
人工智能
海兰2 小时前
【游戏】迷雾镇(Mist Town)AI 沙箱游戏详细设计与部署指南(附源代码)
人工智能·游戏