解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
新缸中之脑5 分钟前
用Remotion构建AI生成视频
人工智能·音视频
belldeep6 分钟前
Blender + AI 全套工作流
人工智能·ai·blender
何陋轩7 分钟前
【重磅】悟空来了:国产AI编程助手深度测评,能否吊打Copilot?
人工智能·算法·面试
AI医影跨模态组学8 分钟前
如何将深度学习MRI表型与iCCA淋巴结转移的生物学机制(KRAS突变、MUC5AC、免疫抑制微环境、大导管亚型)关联,并解释其对治疗响应的意义
人工智能·深度学习·机器学习·论文·医学·医学影像
GreenTea13 分钟前
DeepSeek-V4 技术报告深度分析:基础研究创新全景
前端·人工智能·后端
Days205015 分钟前
免费短视频去水印解析下载移动端
人工智能·开源软件
mit6.82422 分钟前
`Model-View-Claw` 范式
人工智能
Dragon水魅30 分钟前
MQTT 协议详解与边缘计算场景下的架构设计
人工智能·边缘计算
TechubNews36 分钟前
专访新火集团首席经济学家付鹏:解读比特币资产属性、香港楼市与普通人理财建议——Techub News对话实录
人工智能·区块链
Liiiks1 小时前
GPT-Image-2来了!实测:文字渲染99%,UI截图像素级还原,前端工作流要变天了
人工智能·gpt·chatgpt·大模型·ai生图·gpt-image-2·图片设计