解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
l1t13 分钟前
Hy-MT2-1.8B总结的pgvector 0.8.2解决了并行HNSW索引构建漏洞
数据库·人工智能·postgresql
太华13 分钟前
学习AI Agent编程-第二天-LangGraph ReAct模式实现
人工智能
dayuOK630715 分钟前
从“爆款复刻”到“个性化创作”:AI辅助写作的技术挑战与演进方向
人工智能·职场和发展·自动化·新媒体运营·媒体
Raink老师24 分钟前
【AI面试临阵磨枪-58】AI 生成内容合规、版权、审核机制设计
人工智能·面试·职场和发展
lizhihai_9925 分钟前
股市学习心得-与英伟达核心 PCB 相关的八家关联企业
大数据·人工智能·学习
嗝o゚32 分钟前
昇腾CANN ops-nn 仓的 Activation 算子:不只是 ReLU
人工智能·cann·ops-nn
thubier(段新建)34 分钟前
从需求到上线:需求→业务→架构→功能→实现 全链路落地方法论
人工智能·架构
北辰alk40 分钟前
claude code安装教程,一文读懂。
人工智能
AskHarries41 分钟前
Product Hunt 挖项目方法:如何从榜单里找到真正值得做的产品
人工智能
行者-全栈开发1 小时前
Spring AI 混合搜索:如何让 RAG 检索准确率达到 95%?(附 RRF 算法实现)
人工智能·向量检索·混合搜索·关键词搜索·元数据过滤·rrf算法·检索精度