解决容器内deepspeed微调大模型报错

尘世俗人zZ2023-10-18 19:42

解决容器内deepspeed微调大模型报错： $launch.py:315:sigkill_handler$ Killing subprocess

问题描述：
解决办法

问题描述：

在容器中用deepspeed微调百川大模型2时，出现上述错误，错误是由于生成容器时，共享内存没有设置，采用默认值引起的。终端输入ds_report,可以查看shared_memory,（之前是默认63M，现已调整50G）

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数：--shm-size=1g

例：

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

上一篇：HugeGraph 部署和Hubble1.0.0的数据导入Bug修复

下一篇：C++11线程池

热门推荐

01GitHub 镜像站点 02Codex 下载安装指南：Windows 和 macOS 官方版下载 03【AI】2026 年具身智能模型和世界模型总结 042026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 05Codex 桌面端更新后 Chrome 插件和 Computer Use 不可用，怎么排查和修复 06【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 07CC-Switch 下载、安装与使用配置指南【2026.5.29】08Codex 接入 DeepSeek API 完整配置文档 09CC-Switch & Claude 基于 Linux 服务器安装使用指南 10裂开！ChatGPT 居然开始要手机号验证，附详细解决方法