- 现象:exits with return code -7
- 原因 :Setting the shm-size to a large number instead of default 64MB when creating docker container solves the problem in my case. It appears that multi-gpu training relies on the shared memory. ref
- 排查是否是shm-size过小: 在服务器上执行
ds_report
,查看最后一行的是不是shared memory (/dev/shm) size .... 64.00 MB
- 排查是否是shm-size过小: 在服务器上执行
- 解决方案:增加docker的shm
deepseed 单机多卡程序报错:exits with return code -7
遇到好事了2024-01-16 13:30
相关推荐
来酱何人15 分钟前
实时NLP数据处理:流数据的清洗、特征提取与模型推理适配sensen_kiss17 分钟前
INT301 Bio-computation 生物计算(神经网络)Pt.3 梯度下降与Sigmoid激活函数Theodore_102221 分钟前
机器学习(6)特征工程与多项式回归Blossom.1181 小时前
把AI“刻”进玻璃:基于飞秒激光量子缺陷的随机数生成器与边缘安全实战Aurora-silas2 小时前
LLM微调尝试——MAC版XIAO·宝3 小时前
深度学习------YOLOV3apocalypsx4 小时前
深度学习-卷积神经网络基础文火冰糖的硅基工坊4 小时前
[人工智能-大模型-33]:模型层技术 - 大模型的神经网络架构Rock_yzh5 小时前
AI学习日记——PyTorch深度学习快速入门:神经网络构建与训练实战AI 嗯啦6 小时前
深度学习——Python 爬虫原理与实战:从入门到项目实践