- 现象:exits with return code -7
- 原因 :Setting the shm-size to a large number instead of default 64MB when creating docker container solves the problem in my case. It appears that multi-gpu training relies on the shared memory. ref
- 排查是否是shm-size过小: 在服务器上执行
ds_report,查看最后一行的是不是shared memory (/dev/shm) size .... 64.00 MB
- 排查是否是shm-size过小: 在服务器上执行
- 解决方案:增加docker的shm
deepseed 单机多卡程序报错:exits with return code -7
遇到好事了2024-01-16 13:30
相关推荐
ZhengEnCi20 分钟前
09a-斯坦福 CS336 作业一:BPE 分词器灰灰勇闯IT1 小时前
DeepSeek-R1 在 CANN 上的推理部署努力学习_小白1 小时前
Inception V1——学习记录星河耀银海2 小时前
人工智能:注意力机制与Transformer模型实战生成论实验室2 小时前
用事件关系网络重新理解AI:自注意力机制、词向量、CNN、GAN、强化学习、Dropout、知识蒸馏ybdesire2 小时前
详解大模型DPO训练数据格式文歌子3 小时前
认识 Prithvi:NASA × IBM 的遥感基础模型txg6663 小时前
编译无关的漏洞检测:基于 Transformer 的 LLVM-IR 与汇编鲁棒建模一切皆是因缘际会3 小时前
人工智能从对话工具向自主生产力跃迁手写码匠5 小时前
【实战评测】华为云 MaaS 平台 DeepSeek 大模型推理服务 + Dify 一键部署全攻略