解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
一休哥助手4 分钟前
2026年2月2日人工智能早间新闻
人工智能
爱吃泡芙的小白白7 分钟前
CNN的FLOPs:从理论计算到实战避坑指南
人工智能·神经网络·cnn·flops
山居秋暝LS10 分钟前
Padim模型参数
人工智能·机器学习
藦卡机器人17 分钟前
国产分拣机器人品牌有哪一些做的比较好的推荐?
人工智能
GJGCY20 分钟前
2026主流智能体平台技术路线差异,各大平台稳定性与集成能力对比
人工智能·经验分享·ai·智能体
橙露27 分钟前
视觉检测中的数字光纤放大器的核心参数和调整
人工智能·计算机视觉·视觉检测
Rorsion32 分钟前
机器学习过程(从机器学习到深度学习)
人工智能·深度学习·机器学习
JicasdC123asd32 分钟前
【工业检测】基于YOLO13-C3k2-EIEM的铸造缺陷检测与分类系统_1
人工智能·算法·分类
咚咚王者33 分钟前
人工智能之核心技术 深度学习 第十章 模型部署基础
人工智能·深度学习
ydl112833 分钟前
深度学习优化器详解:指数加权平均EWA、动量梯度下降Momentum、均方根传递RMSprop、Adam 从原理到实操
人工智能·深度学习