解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
深圳南柯电子几秒前
物联照明EMC整改:技术攻坚到系统化方案的全链路突破|南柯电子
网络·人工智能·互联网·实验室·emc
athrunsunny2 分钟前
LeAD-M3D :单目3D检测新SOTA
人工智能·深度学习·计算机视觉·3d
free-elcmacom2 分钟前
机器学习进阶<6>神奇的披萨店与学区房:走进RBFN的直觉世界
人工智能·python·机器学习·rbfn
熊文豪7 分钟前
借助 AI Ping 的 Kimi-K2-Thinking 与 ClaudeCode 的加解密工具开发
人工智能·aiping
阿杰学AI7 分钟前
AI核心知识45——大语言模型之PPO(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·ppo·近端策略优化
da_vinci_x10 分钟前
PS 神经滤镜:一张夏天变雪景?场景美术的“季节魔术”
人工智能·3d·aigc·建模·游戏美术·pbr·场景美术
深蓝易网12 分钟前
MES系统如何帮助企业实现产品质量的全过程追溯
大数据·人工智能
free-elcmacom12 分钟前
机器学习进阶<7>人脸识别特征锚点Python实现
人工智能·python·机器学习·rbfn
天才少女爱迪生14 分钟前
图像序列预测有什么算法方案
人工智能·python·深度学习·算法
乐迪信息15 分钟前
乐迪信息:AI摄像机+反光衣佩戴检测,保障智慧煤矿人员作业安全
大数据·运维·人工智能·物联网·安全