解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:launch.py:315:sigkill_handler Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
江湖有缘3 分钟前
Docker部署Beaver Habit Tracker习惯追踪应用
运维·docker·容器
逻辑君3 分钟前
神经生物学研究【20260003】
人工智能
大模型最新论文速读4 分钟前
StreamMA:把流式输出应用到多智能体系统
论文阅读·人工智能·深度学习·机器学习·自然语言处理
前端不太难8 分钟前
大模型之后,谁在决定AI的真实速度?
人工智能·状态模式
落羽的落羽8 分钟前
【项目】JsonRpc框架——开发实现2(业务层)
linux·数据结构·c++·人工智能·算法·json·动态规划
染指11109 分钟前
19.LangChain框架7-LangChain1.0版本使用Agent(中间件实例)
人工智能·python·机器学习·langchain·agent·rag
孟俊宇-MJY13 分钟前
CSDN AI数字营销内容创作功能测评
大数据·人工智能
网络研究院14 分钟前
AI安全格局:前沿模型、智能体AI和AI编码工具如何重塑网络安全与关键基础设施韧性
网络·人工智能·安全·模型·威胁
装不满的克莱因瓶15 分钟前
从梯度下降到 Adam 优化器:掌握神经网络参数优化的核心原理
人工智能·python·深度学习·神经网络·机器学习·计算机视觉·ai
maosheng114616 分钟前
基于AI 文本生成的自动化Linux 运维文档系统
运维·人工智能·自动化