解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
Canace9 小时前
为什么不要让LLM帮我们写文档
前端·人工智能
源创力环形导轨9 小时前
源创力环形导轨:±0.05mm高精度闭环传动,重构柔性智造新范式
人工智能·自动化·环形导轨·环形导轨输送线·源创力科技
AI先驱体验官9 小时前
实时交互数字人:企业服务场景的技术落地分析
大数据·运维·人工智能·重构·aigc
薛定猫AI9 小时前
【深度解析】从 Mythos 安全风波看下一代大模型漏洞挖掘能力与工程实践
人工智能·安全
zhangshuang-peta9 小时前
MCP 与 Prompt Engineering:协议出现后,Prompt 还重要吗?
人工智能·prompt·ai agent·mcp·peta
码农BookSea9 小时前
RAG详解:让大模型看见你的私有知识
人工智能·后端
英伦传奇9 小时前
万字干货:理解 Harness Engineering,看这一篇就够了
人工智能
rainbow7242449 小时前
零库存管理实操:传统仓管到AI供应链规划师的自动化补货与路径优化SOP
运维·人工智能·自动化
我叫张土豆9 小时前
Spring AI 集成 MCP 服务踩坑实录:SSE 与 Streamable HTTP 协议的兼容性深度剖析
人工智能·spring·http
深度学习lover9 小时前
<数据集>yolo扑克牌识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·扑克牌识别