解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
墨染天姬13 小时前
【AI】Datadog
人工智能
TheRouter13 小时前
构建一个支持多模型的 AI 聊天应用:React + TheRouter API 全栈教程
前端·人工智能·react.js
70asunflower13 小时前
大模型推理与部署完全指南:从个人设备到企业集群
人工智能·大模型
輕華13 小时前
角点检测与SIFT特征提取:OpenCV实战指南
人工智能·opencv·计算机视觉
沪漂阿龙13 小时前
深度剖析神经网络学习:从损失函数到SGD,手写数字识别完整实战
人工智能·神经网络·学习
七夜zippoe13 小时前
OpenClaw Skills 技能系统入门:打造可扩展的 AI 助手能力体系
人工智能·ai助手·skills·openclaw·技能系统
oioihoii13 小时前
AI提效,到底能强到什么程度?
人工智能
AiTop10013 小时前
美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA
人工智能·ai·aigc
斯普信云原生组13 小时前
Docker 开源软件应急处理方案及操作手册——容器运行异常处理
docker·容器·eureka
QYR_Jodie13 小时前
从科研投入与技术迭代驱动到稳增扩容:全球小角度X射线散射仪2025年0.7亿,2032年达0.85亿,2026-2032年CAGR3.0%
大数据·人工智能