解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
边缘计算社区2 分钟前
第12届全球边缘计算大会-精彩瞬间
大数据·人工智能·边缘计算
后端小肥肠4 分钟前
DeepSeek3.2+Coze王炸组合!小红书这个隐秘赛道有人成交7万单,有手就行!
人工智能·aigc·coze
阳光普照世界和平12 分钟前
2025年智能体架构与主流技术深度研究报告:从生成式AI迈向自主执行层
人工智能·架构
Ama_tor17 分钟前
docker|F盘安装の1键部署软件及数据储存+2个保姆级运行实例
运维·docker·容器
hzp66624 分钟前
招牌红烧肉版-深度神经网络
人工智能·深度学习·神经网络·llm·aigc·dnn·反向传播
乾元25 分钟前
Service Mesh 与网络抽象:AI 如何做服务层次网络策略生成(微服务 / 云原生)
网络·人工智能·安全·微服务·云原生·运维开发·service_mesh
Zoey的笔记本28 分钟前
告别“人机混战”:如何用智能管控实现安全高效协同
大数据·人工智能
奥利文儿34 分钟前
【虚拟机】Ubuntu24安装Miniconda3全记录:避坑指南与实践
大数据·数据仓库·人工智能·数据库开发·etl·虚拟机·etl工程师
2401_8353024835 分钟前
精准测试赋能高端制造!陶瓷基板介电常数测试的核心价值
大数据·人工智能·制造
寂寞恋上夜1 小时前
从需求到开发任务:WBS拆解的4个层级(附排期模板)
人工智能·prompt·markdown转xmind·deepseek思维导图