解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
AI布道师-wang3 小时前
第 8 章:Agent——让模型学会自己干活
人工智能
hyunbar3 小时前
创建个人知识库(lamaIndex + ChromaDB + 本地开源模型)
人工智能
华为云开发者联盟3 小时前
基于华为云码道 + 高德地图MCP Server快速搭建行程规划助手
人工智能·华为云·软件开发·华为云码道
QuestLab4 小时前
华为云 CodeArts 代码智能体深度评测:国产 AI 编程助手,能打几分?
人工智能·华为云
逻辑君4 小时前
物理生物学研究报告【20260012】
人工智能·神经网络
Cloud Traveler4 小时前
华为云Flexus+DeepSeek征文|华为云 Dify LLM 平台单机部署教程:一键开启高效开发之旅
人工智能·华为云
华为云开发者联盟4 小时前
告别繁琐操作,华为云码道 + Docker重塑远程开发体验
人工智能·学习·docker·华为云·软件开发·华为云码道
chao1898444 小时前
基于狮蚁群算法(ALO)的火电机组功能调度实现
人工智能·算法
财迅通Ai4 小时前
兴业控股(00132.HK)落子粤西,医养版图再扩张:解码银发经济浪潮下的价值洼地
人工智能·兴业控股
threelab4 小时前
Three.js 数学函数着色器 | 三维可视化 / AI 提示词
javascript·人工智能·着色器