解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
Agent产品评测局6 分钟前
临床前同源性反应种属筛选:利用AI Agent加速筛选的实操方案 —— 2026企业级智能体选型与技术落地指南
人工智能·ai·chatgpt
ting945200016 分钟前
HunyuanOCR 全方位深度解析
人工智能·架构
woai336417 分钟前
AI通识-大模型的原理&应用
人工智能
头发够用的程序员36 分钟前
从滑动窗口到矩阵运算:img2col算法基本原理
人工智能·算法·yolo·性能优化·矩阵·边缘计算·jetson
ydmy1 小时前
transformer超参数配置(个人理解)
人工智能·深度学习
AI原来如此1 小时前
AI 编程助手常见问题 10 问 10 答
人工智能·ai·大模型·编程
科技林总2 小时前
【论文】MemGPT: Towards LLMs as Operating Systems
人工智能
黎阳之光2 小时前
黎阳之光透明管理:视频孪生重构智慧仓储新范式
人工智能·算法·安全·重构·数字孪生
qq_411262422 小时前
四博CozyLife AI智能音响方案:技术化设计与实现
人工智能·智能音箱
水如烟3 小时前
孤能子视角:OpenAI,再看强关系与弱关系
人工智能