解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
清空mega几秒前
动手学深度学习——多输入多输出通道详解:卷积为什么能越卷越“厚”?
人工智能
饼干哥哥3 分钟前
9000字落地实操:AI做用户购后评论洞察分析
人工智能
饼干哥哥3 分钟前
我的Vibe Marketing实践案例:如何用AI工作流驱动小红书矩阵,实现7位数营收
人工智能
Mintopia5 分钟前
一套能落地的“干净代码”习惯:不用学架构也能用
人工智能
Mintopia8 分钟前
新手最容易误解的计算机常识:一次讲清楚
人工智能
饼干哥哥8 分钟前
1句话抓100个独立站数据?用第一性原理看懂OpenClaw的架构
人工智能
Flittly9 分钟前
【SpringAIAlibaba新手村系列】(8)持久化会话与 Redis 内存管理
java·人工智能·spring boot·spring·ai
Allen正心正念202510 分钟前
Research Agent架构
人工智能·架构
夜郎king11 分钟前
【码动四季】Trae + 腾讯地图 MCP 实战:让 AI 直接调用地图能力,一步到位
人工智能·trae实战·trae接入腾讯地图mcp·atomgit 码动四季
东离与糖宝11 分钟前
Java 干掉 Python 垄断!LangChain4j + PgVector 本地知识库开发全流程
java·人工智能