- 现象:exits with return code -7
- 原因 :Setting the shm-size to a large number instead of default 64MB when creating docker container solves the problem in my case. It appears that multi-gpu training relies on the shared memory. ref
- 排查是否是shm-size过小: 在服务器上执行
ds_report
,查看最后一行的是不是shared memory (/dev/shm) size .... 64.00 MB
- 排查是否是shm-size过小: 在服务器上执行
- 解决方案:增加docker的shm
deepseed 单机多卡程序报错:exits with return code -7
遇到好事了2024-01-16 13:30
相关推荐
通街市密人有2 小时前
PanTS: The Pancreatic Tumor Segmentation Dataset九章云极AladdinEdu4 小时前
冷冻电镜重构的GPU加速破局:从Relion到CryoSPARC的并行重构算法clz13145215 小时前
二,神经网络美狐美颜SDK开放平台5 小时前
未来已来:美颜SDK如何通过深度学习实现个性化美颜形象?禺垣6 小时前
深度学习模型在C++平台的部署CoovallyAIHub6 小时前
基于YOLOv11的CF-YOLO,如何突破无人机小目标检测?Virgil1399 小时前
【TrOCR】训练代码烟锁池塘柳09 小时前
【深度学习】神经网络剪枝方法的分类锅挤9 小时前
深度学习3(向量化编程+ python中实现逻辑回归)归去_来兮16 小时前
深度学习模型在C++平台的部署