- 现象:exits with return code -7
- 原因 :Setting the shm-size to a large number instead of default 64MB when creating docker container solves the problem in my case. It appears that multi-gpu training relies on the shared memory. ref
- 排查是否是shm-size过小: 在服务器上执行
ds_report
,查看最后一行的是不是shared memory (/dev/shm) size .... 64.00 MB
- 排查是否是shm-size过小: 在服务器上执行
- 解决方案:增加docker的shm
deepseed 单机多卡程序报错:exits with return code -7
遇到好事了2024-01-16 13:30
相关推荐
lxmyzzs3 小时前
基于深度学习CenterPoint的3D目标检测部署实战算法_小学生6 小时前
循环神经网络(RNN, Recurrent Neural Network)努力还债的学术吗喽8 小时前
【速通】深度学习模型调试系统化方法论:从问题定位到性能优化大千AI助手9 小时前
GitHub Copilot:AI编程助手的架构演进与真实世界影响学行库小秘10 小时前
基于门控循环单元的数据回归预测 GRU范男11 小时前
基于Pytochvideo训练自己的的视频分类模型聚客AI12 小时前
🧠深度解析模型压缩革命:减枝、量化、知识蒸馏SHIPKING39312 小时前
【机器学习&深度学习】Ollama、vLLM、LMDeploy对比:选择适合你的 LLM 推理框架coding者在努力13 小时前
深度学习核心技巧yzx99101314 小时前
从机器视觉到图像识别:计算机视觉的多维探索