解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
好奇龙猫3 小时前
【人工智能学习-AI入试相关题目练习-第七次】
人工智能·学习
Mao.O5 小时前
开源项目“AI思维圆桌”的介绍和对于当前AI编程的思考
人工智能
jake don6 小时前
AI 深度学习路线
人工智能·深度学习
信创天地6 小时前
信创场景软件兼容性测试实战:适配国产软硬件生态,破解运行故障难题
人工智能·开源·dubbo·运维开发·risc-v
幻云20106 小时前
Python深度学习:从筑基到登仙
前端·javascript·vue.js·人工智能·python
峰顶听歌的鲸鱼6 小时前
Kubernetes介绍和部署
运维·笔记·云原生·容器·kubernetes·学习方法
无风听海6 小时前
CBOW 模型中的输出层
人工智能·机器学习
汇智信科6 小时前
智慧矿山和工业大数据解决方案“智能设备管理系统”
大数据·人工智能·工业大数据·智能矿山·汇智信科·智能设备管理系统
静听松涛1337 小时前
跨语言低资源场景下的零样本迁移
人工智能
SEO_juper7 小时前
AI+SEO全景决策指南:10大高价值方法、核心挑战与成本效益分析
人工智能·搜索引擎·seo·数字营销