解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
Java后端的Ai之路3 小时前
还在手写 Agent 代码?封装一个 SDK 让你从“码农“升级“包工头“
人工智能·langchain·ai编程·vibe coding·agent sdk
redreamSo3 小时前
Claude Code 最佳实践:从「能用」到「用得好」的 15 个关键技巧
人工智能·claude
Merkyor3 小时前
我花一下午修了 7 个 bug:一个 Electron AI Agent 发版前夜的 debug 长征
人工智能
石榴树下的七彩鱼3 小时前
智能抠图 API 接入实战:3 行代码实现图片自动去背景(Python / Java / PHP / JS)
java·图像处理·人工智能·python·php·api·抠图
星哥说事3 小时前
开源项目OpenClaw:多AI模型统一调用的技术学习与实践
人工智能·学习
一个天蝎座 白勺 程序猿3 小时前
零基础AI学习:数学基础要求与补充指南
人工智能·学习·ai
子非吾喵4 小时前
本地部署AI大模型:Ollama + Qwen3 完整指南,用Python打造智能聊天助手
开发语言·人工智能·python
漫游的渔夫4 小时前
从 Demo 到生产:为什么你的 AI 功能一上线就成了不可控的“黑盒”?
前端·人工智能
诸葛务农4 小时前
光电对抗:多模复合制导烟雾干扰外场试验及仿真(4)
人工智能·算法·光电对抗
KC2704 小时前
零信任安全架构的需求:当 AI 智能体开始渗透企业内网
人工智能·安全