- 现象:exits with return code -7
- 原因 :Setting the shm-size to a large number instead of default 64MB when creating docker container solves the problem in my case. It appears that multi-gpu training relies on the shared memory. ref
- 排查是否是shm-size过小: 在服务器上执行
ds_report,查看最后一行的是不是shared memory (/dev/shm) size .... 64.00 MB
- 排查是否是shm-size过小: 在服务器上执行
- 解决方案:增加docker的shm
deepseed 单机多卡程序报错:exits with return code -7
遇到好事了2024-01-16 13:30
相关推荐
饼干哥哥3 天前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词武子康4 天前
调查研究-191 SenseVoice 不只是 ASR:把语音从“转文字“升级成“理解状态“武子康6 天前
调查研究-189 Kronos 调研:金融 K 线基础模型,是真突破,还是量化圈的新玩具?xiao5kou4chang6kai411 天前
MATLAB机器学习、深度学习--从数据预处理到模型训练renhongxia111 天前
世界模型作为AGI落地底层底座的作用计算机科研狗@OUC11 天前
(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimationβ添砖java11 天前
深度学习(22)网络中的网络NiNKobebryant-Manba11 天前
深度学习时候d2l报错和使用问题zhangfeng113312 天前
deepspeed zero3 结合 llamafactory 微调 ,save_only_model: true 导致保存时候出错大模型最新论文速读12 天前
06-16 · LLM 最新论文速览