解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
卷Java13 小时前
GPT-Image 2隐藏玩法:上传手掌照片,AI一键生成专业手相解读图
人工智能·gpt
knight_9___13 小时前
大模型project面试4
人工智能·python·深度学习·算法·面试·agent
宇明一不急13 小时前
k8s 常用的正则表达式
云原生·容器·kubernetes
志栋智能13 小时前
安全、稳定是超自动化运维的底座
网络·数据库·人工智能
无忧智库13 小时前
某集团企业智能体(Agent)操作系统(AOS)基础平台与企业级Agent治理体系详细设计方案(WORD)
大数据·人工智能
csdn小瓯13 小时前
AI质量评估体系:LLM-as-a-Judge实现与自动化测试实战
前端·网络·人工智能
沫儿笙13 小时前
库卡弧焊机器人混合气焊接节气装置
人工智能·机器人
卡卡大怪兽13 小时前
MCP 和 CLI
人工智能
Black蜡笔小新13 小时前
企业私有化AI训练推理一体工作站DLTM:筑牢企业数据安全,打造企业专属AI能力底座
人工智能
code_pgf13 小时前
知识蒸馏在 sVLM 中的作用及实现方式
人工智能·深度学习·机器学习