解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
我会冲击波19 小时前
UI UX Pro Max:给 AI 请个设计师
人工智能·程序员
MaxStormBot19 小时前
WPS Office Skill v1.3.0 发布:全格式图文混排 + Markdown 三件套转换
人工智能
Asher阿舍技术站19 小时前
【AI基础学习系列】五、AIGC从创意到创造
人工智能·学习·aigc·进阶
ZhengEnCi19 小时前
05. 文本分块策略设计
人工智能
前端不太难19 小时前
AI 如何改变传统 鸿蒙App 的信息架构
人工智能·架构·harmonyos
汽车软件工程师00119 小时前
ChatGpt指导嵌入式软件开发能力——2、TriCore深度专项训练
人工智能·chatgpt·autosar
咚咚王者19 小时前
人工智能之视觉领域 计算机视觉 第八章 图像边缘检测
人工智能·opencv·计算机视觉
minhuan19 小时前
大模型应用:规则引擎 + 混元大模型:确定性骨架与智慧大脑的新融合实践.89
人工智能·大模型应用·规则引擎说明·rule-engine应用
数字生命卡兹克19 小时前
2026马年春晚15个关于AI的看点 - 有一种人类之外的美。
人工智能
Fairy要carry19 小时前
面试-SPO
人工智能