解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
艾莉丝努力练剑4 分钟前
【MYSQL】MYSQL学习的一大重点:MYSQL数据类型
android·linux·数据库·人工智能·学习·mysql·网络安全
fanxianshi5 分钟前
2026 年 3 月行业动态与开源生态全景报告
人工智能·深度学习·神经网络·机器学习·计算机视觉·开源·语音识别
CoderJia程序员甲5 分钟前
GitHub 热榜项目 - 日榜(2026-03-14)
人工智能·ai·大模型·github·ai教程
冬奇Lab6 分钟前
ClaudeCode武装三件套:Ghostty + Yazi + Lazygit 打造高效开发环境
人工智能·ai编程
新缸中之脑15 分钟前
强化学习环境的商业运作
人工智能
沪漂阿龙17 分钟前
大模型面试题200问
人工智能
zadyd17 分钟前
Langgraph开发:先有Graph还是先有State
人工智能·机器学习
Once_day23 分钟前
AI实践(6)联网搜索与深度研究
人工智能·ai实践
良逍Ai出海24 分钟前
Xcode 26来AI了:iOS独立开发者3步接入实测
人工智能·ios·xcode
深小乐26 分钟前
多分支与 AI 隔离进化:Git Worktree vs Cursor Worktree
人工智能