解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
EasyCVR几秒前
视频汇聚平台EasyCVR如何为活动安保打造“智慧天眼”系统?
人工智能·音视频
数字冰雹1 分钟前
从“可视”到“可智”——“人工智能+”行动下,数字孪生与 AI 的战略交汇机遇
人工智能
大厂技术总监下海1 分钟前
可视化编排 + AI Copilot + 私有知识库:Sim如何打造下一代AI智能体开发平台?
人工智能·开源·copilot
2501_939909052 分钟前
Rancher 管理 Kubernetes 集群与Pod的详解
容器·kubernetes·rancher
逸俊晨晖5 分钟前
昇腾310P算力卡 10路1080p实时YOLOv8目标检测
人工智能·yolo·目标检测·昇腾
可爱又迷人的反派角色“yang”6 分钟前
k8s(二)
linux·运维·docker·云原生·容器·kubernetes·云计算
电商API_1800790524710 分钟前
B站视频列表与详情数据API调用完全指南
大数据·人工智能·爬虫·数据分析
jxm_csdn19 分钟前
递归工程工厂:Claude Code + Git Worktrees + Tilix/Tmux 的“AI分身”编码团队
人工智能·git
旧日之血_Hayter22 分钟前
docker部署项目,/var/lib/docker/overlay2目录满了如何清理?
运维·docker·容器
雨稚23 分钟前
Aider部署使用,Claude Code平替
人工智能·cli