解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
木卫四科技2 分钟前
Chonkie 技术深度学习
人工智能·python·rag
努力毕业的小土博^_^8 分钟前
【地学应用】溜砂坡scree slope / talus slope的定义、机制、分布、危害、与滑坡区别、研究方向与代表论文
人工智能·深度学习·遥感·地质灾害·地学应用
JeffDingAI8 分钟前
【Datawhale学习笔记】基于Gensim的词向量实战
人工智能·笔记·学习
Ryan老房8 分钟前
自动驾驶数据标注-L4-L5级别的数据挑战
人工智能·目标检测·目标跟踪·自动驾驶
weixin_3981877520 分钟前
YOLOv8结合SCI低光照图像增强算法实现夜晚目标检测
人工智能·yolo
万行29 分钟前
机器人系统ROS2
人工智能·python·机器学习·机器人·计算机组成原理
人工智能AI技术31 分钟前
【Agent从入门到实践】05 小结:理清Agent的核心定义与核心能力
人工智能
落雨盛夏33 分钟前
26深度学习|李哥1
人工智能·深度学习
共绩算力33 分钟前
世界模型正在掀起AI新浪潮
人工智能·microsoft·共绩算力
2501_9413220341 分钟前
【蚕桑业】【深度学习】基于VFNet的蚕虫智能检测与识别系统实现与应用
人工智能·深度学习