- 现象:exits with return code -7
- 原因 :Setting the shm-size to a large number instead of default 64MB when creating docker container solves the problem in my case. It appears that multi-gpu training relies on the shared memory. ref
- 排查是否是shm-size过小: 在服务器上执行
ds_report,查看最后一行的是不是shared memory (/dev/shm) size .... 64.00 MB
- 排查是否是shm-size过小: 在服务器上执行
- 解决方案:增加docker的shm
deepseed 单机多卡程序报错:exits with return code -7
遇到好事了2024-01-16 13:30
相关推荐
做人不要太理性6 分钟前
CANN Runtime 运行时组件深度解析:任务下沉执行、异构内存规划与全栈维测诊断机制island131412 分钟前
CANN GE(图引擎)深度解析:计算图优化管线、内存静态规划与异构任务的 Stream 调度机制艾莉丝努力练剑13 分钟前
深度学习视觉任务:如何基于ops-cv定制图像预处理流程禁默18 分钟前
大模型推理的“氮气加速系统”:全景解读 Ascend Transformer Boost (ATB)User_芊芊君子19 分钟前
CANN大模型加速核心ops-transformer全面解析:Transformer架构算子的高性能实现与优化island13141 小时前
CANN ops-nn 算子库深度解析:神经网络核心计算的硬件映射、Tiling 策略与算子融合机制云边有个稻草人1 小时前
CANN ops-nn:筑牢AIGC的神经网络算子算力底座island13141 小时前
CANN Catlass 算子模板库深度解析:高性能 GEMM 架构、模板元编程与融合算子的显存管理策略心疼你的一切1 小时前
数字智人:CANN加速的实时数字人生成与交互chaser&upper1 小时前
击穿长文本极限:在 AtomGit 破译 CANN ops-nn 的注意力加速密码