解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
m0_748232923 分钟前
DALL-M:基于大语言模型的上下文感知临床数据增强方法 ,补充
人工智能·语言模型·自然语言处理
szxinmai主板定制专家9 分钟前
【国产NI替代】基于FPGA的32通道(24bits)高精度终端采集核心板卡
大数据·人工智能·fpga开发
海棠AI实验室12 分钟前
AI的进阶之路:从机器学习到深度学习的演变(三)
人工智能·深度学习·机器学习
年薪丰厚17 分钟前
如何在K8S集群中查看和操作Pod内的文件?
docker·云原生·容器·kubernetes·k8s·container
zhangj112518 分钟前
K8S Ingress 服务配置步骤说明
云原生·容器·kubernetes
岁月变迁呀19 分钟前
kubeadm搭建k8s集群
云原生·容器·kubernetes
墨水\\19 分钟前
二进制部署k8s
云原生·容器·kubernetes
Source、21 分钟前
k8s-metrics-server
云原生·容器·kubernetes
机器懒得学习23 分钟前
基于YOLOv5的智能水域监测系统:从目标检测到自动报告生成
人工智能·yolo·目标检测
颜淡慕潇25 分钟前
【K8S问题系列 |19 】如何解决 Pod 无法挂载 PVC问题
后端·云原生·容器·kubernetes