解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
ZCXZ12385296a3 分钟前
母线检测与识别——基于CenterNet改进模型的工业电力设备目标检测系统_r18_fpn_8xb8-amp-lsj-200e_coco
人工智能·目标检测·计算机视觉
量子-Alex7 分钟前
【大模型技术报告】Qwen2技术报告解读
人工智能
人工智能AI技术7 分钟前
智能体元年第一课:使用Microsoft Foundry + AI Toolkit 10分钟构建你的第一个多模态Agent
人工智能·c#
高工智能汽车8 分钟前
对话后摩智能项之初:端侧AI芯片已就绪,等待下一个“iPhone 4”
人工智能
Sagittarius_A*9 分钟前
灰度变换与阈值化:从像素映射到图像二值化的核心操作【计算机视觉】
图像处理·人工智能·opencv·算法·计算机视觉·图像阈值·灰度变换
V胡桃夹子11 分钟前
VS Code / Lingma AI IDE Java 开发攻略手册
java·ide·人工智能
Bruk.Liu11 分钟前
(LangChain实战3):LangChain阻塞式invoke与流式stream的调用
人工智能·python·langchain
小小工匠13 分钟前
大模型开发 - 零手写 AI Agent:深入理解 ReAct 模式与 Java 实现
人工智能·react
翱翔的苍鹰15 分钟前
法律问答机器人”技术方案”的实现
人工智能·rnn·深度学习·自然语言处理
m0_6038887118 分钟前
Structured Over Scale Learning Spatial Reasoning from Educational Video
人工智能·深度学习·机器学习·ai·论文速览