解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
传说故事4 分钟前
【论文阅读】DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos
论文阅读·人工智能·具身智能
李昊哲小课5 分钟前
LLM Wiki - 本地知识库管理系统
人工智能·本地知识库·llm wiki
水如烟7 分钟前
孤能子视角:跨域联接之示例,观察符投射
人工智能
成为你的宁宁9 分钟前
【K8s ConfigMap 配置管理创建、挂载与热更新实践】
云原生·容器·kubernetes
思绪无限12 分钟前
YOLOv5至YOLOv12升级:金属锈蚀检测系统的设计与实现(完整代码+界面+数据集项目)
人工智能·python·深度学习·目标检测·计算机视觉·yolov12
小追兵15 分钟前
Claude Code API 中转站定价太乱,我做了个在线比价工具
人工智能·claude
北京软秦科技有限公司19 分钟前
一份报告为何总被退回?IACheck结合AI报告审核给防静电地板检测合规性“补漏洞”
人工智能
Agent产品评测局24 分钟前
如何搭建一个药品市场价格监控智能体来实现100%价格一致性? —— 2026全渠道价格均衡化架构实战指南
人工智能·ai·chatgpt·架构
每日综合37 分钟前
多元产业赋能数字未来:大洋集团全面进军教育、游戏与大健康赛道
人工智能·游戏
网瘾新之助39 分钟前
像 Git 一样思考你的 Claude Code 会话
人工智能