解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
eihh233337 小时前
山东大学软件学院毕业设计(二)
人工智能·深度学习·机器学习
小义_7 小时前
【Docker】知识四
linux·运维·docker·容器
KG_LLM图谱增强大模型7 小时前
图谱智能体记忆技术和应用综述:构建AI Agent的“大脑记忆系统“
人工智能
冷雨夜中漫步7 小时前
DockerDesktop打包docker镜像时报错
运维·docker·容器
小龙报7 小时前
【Coze-AI智能体平台】Coze 工作流 = 智能体的 “流程管家”?一文解锁自动化落地新玩法
人工智能·语言模型·自然语言处理·性能优化·数据分析·知识图谱·需求分析
两万五千个小时7 小时前
构建mini Claude Code:08 - Fire and Forget:用后台线程解锁 Multi-Agent 并行执行
人工智能·python·架构
老金带你玩AI7 小时前
OpenClaw1184个恶意插件Claude找出500个零日漏洞,老金开源个安全Skill你直接拿去用
人工智能
薛定e的猫咪7 小时前
Vibe Coding范式实战:用AI工具链(Stitch+Figma+ai studio+Trae)快速开发全栈APP
前端·人工智能·react.js·github·figma
风栖柳白杨8 小时前
【Transformer】核心思想与原理
人工智能·深度学习·transformer
和小潘一起学AI8 小时前
人工智能中常用的KL散度是什么?
人工智能