解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
ZStack开发者社区1 分钟前
金融云新范式:ZStack如何用“一套架构“打通全域全场景
大数据·人工智能
weitingfu8 分钟前
从 BERT 到 GPT 再到 Mamba:LLM 架构的“三国演义“
人工智能·gpt·大模型·bert·mamba·上下文·实战指南
Raink老师8 分钟前
【AI面试临阵磨枪】详细解释 LLM、Token、Context、Prompt、Tool、MCP、Agent、Agent Skill 这些名词
人工智能·prompt·ai 面试
GEO索引未来8 分钟前
为什么做GEO需要一套好的数据系统?
大数据·人工智能·ai·chatgpt·googlecloud
JoyCong199810 分钟前
统信桌面操作系统V25焕新登场,久尺智能ToDesk+AI布局激发信创活力
人工智能
咚咚王者12 分钟前
人工智能之知识蒸馏 第三章 知识类型分类与蒸馏对象选择策略
人工智能·分类·数据挖掘
dfsj6601113 分钟前
第三章:神经网络的史前史
人工智能·深度学习·神经网络
AI周红伟13 分钟前
《智能体应用交付实操:OpenClaw+Skills+RAG+Agent智能体应用案例实操和智能体交付的方案设计》
大数据·数据库·人工智能·科技·gpt·深度学习·openclaw
名字不好奇15 分钟前
Claude Code 是如何“记住“一切的?
人工智能
数智工坊21 分钟前
深度拆解AnomalyAny:异常检测新工作,利用Stable Diffusion生成真实多样异常样本!
人工智能·pytorch·python·stable diffusion