解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
落雨盛夏2 小时前
深度学习|李哥考研4图片分类比较详细说明
人工智能·深度学习·分类
臭东西的学习笔记6 小时前
论文学习——机器学习引导的蛋白质工程
人工智能·学习·机器学习
大王小生6 小时前
说说CSV文件和C#解析csv文件的几种方式
人工智能·c#·csv·csvhelper·csvreader
m0_462605226 小时前
第G3周:CGAN入门|生成手势图像
人工智能
bubiyoushang8887 小时前
基于LSTM神经网络的短期风速预测实现方案
人工智能·神经网络·lstm
中烟创新7 小时前
烟草专卖文书生成智能体与法规案卷评查智能体获评“年度技术最佳实践奖”
人工智能
得一录7 小时前
大模型中的多模态知识
人工智能·aigc
Github掘金计划7 小时前
Claude Work 开源平替来了:让 AI 代理从“终端命令“变成“产品体验“
人工智能·开源
ghgxm5207 小时前
Fastapi_00_学习方向 ——无编程基础如何用AI实现APP生成
人工智能·学习·fastapi
J2虾虾8 小时前
Docker启动超时,吓得我一身汗
运维·docker·容器