pytorch训练的时候 shm共享内存不足,导致训练停止

1.查看shm情况

bash 复制代码
df -h /dev/shm

内存已经满了,因为之前训练多次训练意外停止到shm中的缓存不能及时被清理

2、手动清理shm

依然没被释放

3、查看关联的进程,一个一个kill

bash 复制代码
lsof |grep deleted

kill -9 46619 44618 44617 。。。。。

4、搞定

相关推荐
aircrushin13 小时前
轻量化大模型架构演进
人工智能·架构
文心快码BaiduComate14 小时前
百度云与光本位签署战略合作:用AI Agent 重构芯片研发流程
前端·人工智能·架构
风象南15 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
曲幽15 小时前
FastAPI压力测试实战:Locust模拟真实用户并发及优化建议
python·fastapi·web·locust·asyncio·test·uvicorn·workers
Mintopia16 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮16 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬16 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia17 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区17 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两20 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent