解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
凌杰15 小时前
AI 学习笔记:Agent 的能力体系
人工智能
IT_陈寒16 小时前
React状态管理终极对决:Redux vs Context API谁更胜一筹?
前端·人工智能·后端
舒一笑17 小时前
如何获取最新的技术趋势和热门技术
人工智能·程序员
聚客AI18 小时前
🎉OpenClaw深度解析:多智能体协同的三种模式、四大必装技能与自动化运维秘籍
人工智能·开源·agent
黄粱梦醒18 小时前
大模型企业级部署方案-vllm
人工智能·llm
IT_陈寒18 小时前
JavaScript代码效率提升50%?这5个优化技巧你必须知道!
前端·人工智能·后端
IT_陈寒18 小时前
Java开发必知的5个性能优化黑科技,提升50%效率不是梦!
前端·人工智能·后端
康斯坦丁师傅18 小时前
发现一个插件,免费用谷歌最新NanoBanana 2
人工智能
emo猫pro_max20 小时前
openclaw飞书流式回复配置指南
人工智能
FishCoderh20 小时前
被OpenClaw的Session搞晕了?这篇让你彻底搞懂
人工智能