解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
前端大波几秒前
Vue 项目中让 AI 更稳:AGENTS.md + Prompt 模板实践
vue.js·人工智能·prompt
珠海西格电力1 分钟前
零碳园区能源互联技术路径适配方案的成本效益分析
大数据·人工智能·架构·智慧城市·能源
Daydream.V6 分钟前
OpenCV——DNN模块实现风格迁移
人工智能·opencv·dnn
jinglong.zha7 分钟前
OpenClaw核心概念速览
人工智能·ai·大模型·openclaw·养龙虾
摄影图8 分钟前
AI神经网络数据可视化图片素材 多格式多场景助力设计高效开展
人工智能·aigc·插画
IT大师兄吖9 分钟前
MatAnyone2 视频去除背景 懒人整合包
人工智能·音视频
小超同学你好9 分钟前
面向 LLM 的程序设计 1:API 契约设计:从 REST 到「能力端点」
人工智能·语言模型
程序员Shawn10 分钟前
【机器学习 | 第八篇】- 朴素贝叶斯
人工智能·机器学习
A 小码农10 分钟前
亲测AI智能小助手-IDEA中使用腾讯混元大模型
java·人工智能·intellij-idea
ssdfang15 分钟前
Gemini 3.1镜像深度推理实战:解构多模态长视频理解与结构化知识抽取
人工智能·音视频·语音识别