- 现象:exits with return code -7
- 原因 :Setting the shm-size to a large number instead of default 64MB when creating docker container solves the problem in my case. It appears that multi-gpu training relies on the shared memory. ref
- 排查是否是shm-size过小: 在服务器上执行
ds_report,查看最后一行的是不是shared memory (/dev/shm) size .... 64.00 MB
- 排查是否是shm-size过小: 在服务器上执行
- 解决方案:增加docker的shm
deepseed 单机多卡程序报错:exits with return code -7
遇到好事了2024-01-16 13:30
相关推荐
LaughingZhu17 分钟前
Product Hunt 每日热榜 | 2026-03-25枫叶林FYL37 分钟前
【自然语言处理 NLP】第二章 经典NLP算法与特征工程(Classical NLP Algorithms)剑穗挂着新流苏3123 小时前
117_PyTorch 实战:利用训练好的模型进行单张图片验证枫叶林FYL3 小时前
【乳腺癌早期筛查(钼靶X光图像AI识别)】第一章:钼靶AI核心算法架构演进——从2D全视野到3D断层合成与视觉Transformer枫叶林FYL4 小时前
【自然语言处理 NLP】数学与计算基础(Mathematical & Computational 完整源码实现another heaven4 小时前
【深度学习 超参调优】lr0与lrf 的关系放下华子我只抽RuiKe54 小时前
深度学习全景指南:硬核实战版天空之城_tsf5 小时前
通用多模态检索——大模型微调OpenBayes贝式计算5 小时前
教程上新|低门槛部署英伟达最新 Physical AI 模型,覆盖人形机器人/人体运动生成/扩散模型微调等liliwoliliwo7 小时前
yolo3 点