解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
OAK中国_官方2 分钟前
DepthAI v3 目标追踪器:速度估计与遮挡处理
人工智能
DisonTangor3 分钟前
【字节拥抱开源】ByteDance-Seed开源连续潜在扩散语言模型——Cola DLM
人工智能·语言模型·自然语言处理
2601_957786773 分钟前
矩阵系统深度解析:从冷启动困局到智能化运营的技术演进
大数据·人工智能·矩阵
linmoo19867 分钟前
Agent应用实践之四 - 基础:AgentScope-SpringBoot集成源码解析
人工智能·spring boot·agent·agentscope·openclaw
爱写代码的小朋友8 分钟前
基于多约束遗传算法的中小学排座位优化模型研究
linux·人工智能·算法
科技小花8 分钟前
全球数据治理:合规与AI双引擎驱动
大数据·人工智能·数据治理·数据中台
周杰伦的稻香10 分钟前
使用 Ollama 为 Hexo 博客部署 AI 文章摘要
人工智能
sunxunyong10 分钟前
st功能记录
人工智能
weelinking12 分钟前
【claude】14_Claude作为技术文档助手
前端·人工智能·react.js·数据挖掘·前端框架
领麦微红外15 分钟前
从被动预警到精准防护:红外测温助力激光安全切割新标准
人工智能·安全