解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
Coder_Boy_4 分钟前
基于SpringAI的在线考试系统-考试系统开发流程案例
java·数据库·人工智能·spring boot·后端
挖坑的张师傅20 分钟前
对 AI Native 架构的一些思考
人工智能
oMcLin42 分钟前
2025年必备的Docker命令指南与实战示例
docker·容器·eureka
sun cat1 小时前
Docker详细介绍(6)
docker·容器·docker-compose
LinQingYanga1 小时前
极客时间多模态大模型训练营毕业总结(2026年2月8日)
人工智能
pccai-vip1 小时前
过去24小时AI创业趋势分析
人工智能
SEO_juper1 小时前
AI SEO实战:整合传统技术与AI生成搜索的优化框架
人工智能·chatgpt·facebook·seo·geo·aeo
pp起床1 小时前
Gen_AI 补充内容 Logit Lens 和 Patchscopes
人工智能·深度学习·机器学习
方见华Richard1 小时前
自指-认知几何架构 可行性边界白皮书(务实版)
人工智能·经验分享·交互·原型模式·空间计算
冬奇Lab1 小时前
AI时代的"工具自由":我是如何进入细糠时代的
人工智能·ai编程