解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
NaMM CHIN1 分钟前
Spring Boot + Spring AI快速体验
人工智能·spring boot·spring
一切皆是因缘际会9 分钟前
可落地数字生命工程:从记忆厮杀到自我意识觉醒全链路,AGI内生智能硅基生命心智建模
人工智能·深度学习·算法·机器学习·ai·系统架构·agi
70asunflower13 分钟前
从CPU市场到AI算力格局:一场关于技术路线、商业逻辑与生态锁定的深度梳理
人工智能
地球资源数据云15 分钟前
中国陆地生态系统主要植物功能特征空间分布数据
大数据·数据库·人工智能·机器学习
AI创界者27 分钟前
最新RedMix-Ernie-Image整合包,解压即用:文生图、图生图,n卡8G显存玩转4K
人工智能
月诸清酒28 分钟前
51-260503 AI 科技日报 (ChatGPT图像功能用户量暴涨,新用户占六成)
人工智能·chatgpt
Raink老师29 分钟前
【AI面试临阵磨枪-32】如何提升工具调用(Function Call)准确率?常见失败场景与解决方法
人工智能·ai 面试
格林威30 分钟前
线阵工业相机:线阵图像出现“波浪纹”,是机械振动还是编码器问题?
开发语言·人工智能·数码相机·计算机视觉·视觉检测·工业相机·线阵相机
knight_9___30 分钟前
LLM工具调用面试篇5
人工智能·python·深度学习·面试·职场和发展·llm·agent
网络工程小王32 分钟前
【LangChain Output Parser 输出解析器】输出篇
人工智能·学习·langchain