解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
xier_ran3 分钟前
深度学习:RMSprop 优化算法详解
人工智能·深度学习·算法
大千AI助手12 分钟前
Prefix-Tuning:大语言模型的高效微调新范式
人工智能·神经网络·自然语言处理·llm·prefix-tuning·大千ai助手·前缀微调
雾江流16 分钟前
RikkaHub 1.6.11 | 开源的本地大型语言模型聚合应用,支持多种AI服务提供商
人工智能·语言模型·自然语言处理·软件工程
Mr_Dwj1 小时前
【Python】Python 基本概念
开发语言·人工智能·python·大模型·编程语言
私人珍藏库1 小时前
AI一键PPT 2.0.3 一键智能生成
人工智能·powerpoint
com_4sapi2 小时前
2025 权威认证头部矩阵系统全景对比发布 双榜单交叉验证
大数据·c语言·人工智能·算法·矩阵·机器人
2401_841495642 小时前
【自然语言处理】基于规则基句子边界检测算法
人工智能·python·自然语言处理·规则·文本·语言·句子边界检测算法
科技云报道2 小时前
AI+云计算互融共生,2025AI云产业发展大会即将举行
人工智能·云计算
飞哥数智坊2 小时前
TRAE SOLO 正式版实战:一个全栈打卡项目的真实体验
人工智能·trae·solo
qy-ll2 小时前
遥感论文学习
人工智能·深度学习·计算机视觉·gan·遥感·栅格化