解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
酷雷曼VR全景5 小时前
身边的变化丨从“尝鲜”到“刚需”,VR全景让生活“立体化”
人工智能·生活·vr·vr全景·酷雷曼·合作商
8***B5 小时前
Docker虚拟现实案例
docker·容器·vr
m0_650108245 小时前
Flamingo:打破模态壁垒的少样本视觉语言模型
论文阅读·人工智能·视觉语言模型·deepmind·vlm·通用智能·通用小样本适配
gorgeous(๑>؂<๑)5 小时前
【ICLR26匿名投稿】Context-Aware ViT:让目标检测真正“看清上下文”的增强策略
人工智能·目标检测·机器学习·计算机视觉·目标跟踪
AI大模型学徒5 小时前
NLP基础(七)_文本分析与关键词提取
人工智能·自然语言处理
汤姆yu5 小时前
基于深度学习的健康饮食推荐系统
人工智能·深度学习
2501_941149115 小时前
AI与自动化:未来工作的变革与机遇
人工智能
张人玉5 小时前
OCR 字符识别助手详解(含 Halcon 示例)
人工智能·机器学习·计算机视觉·halcon
z***I3946 小时前
Git机器学习
人工智能·git·机器学习
minhuan7 小时前
构建AI智能体:一百、AI模型选择与部署考量:从业务需求到实际落地的思考决策
人工智能·大模型选择·大模型介绍