解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
ECH00O0044 分钟前
10-Fine-tuning/微调:给AI上"专业课"
人工智能
V搜xhliang02461 小时前
多模态数据采集与标注
人工智能·目标检测·计算机视觉·知识图谱
CPU NULL1 小时前
Google Banana pro 画卡通信息图
人工智能·ai作画·aigc·nano banana
心.c1 小时前
从 ReAct 到 Plan-and-Execute:AI Agent 推理架构的理解与选择
人工智能·react.js·架构
人工智能AI技术1 小时前
GPT-5.4逆向NES游戏ROM:我是如何用AI自动生成可运行复古游戏代码的
人工智能
zkrb7771 小时前
AI误删生产库预警|中科热备:以硬核技术筑牢云上容灾防线
人工智能
咕泡科技1 小时前
从0到1系统学习大模型:一份接地气的入门指南
人工智能·python·学习
KerwinChou_CN1 小时前
大模型 RAG 中 RRF(Reciprocal Rank Fusion倒数排序融合)是什么
人工智能·后端·python
头发够用的程序员1 小时前
GPU 流水线底层探索:从 SIMT 前端到 SIMD 后端的全链路解析
arm开发·人工智能·嵌入式硬件·深度学习·硬件架构·边缘计算
1-1=01 小时前
PlayGround AI —— 使用图片生图器轻而易举
人工智能