解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
mmWave&THz17 小时前
技术解析:Bolicom-mmWave高速毫米波通信设备赋能港口机械智能化升级
网络·人工智能·系统架构·信息与通信·智能硬件
观北海17 小时前
视觉-语言-动作模型(VLA)深度解析:当 AI 学会“看、读、动”
人工智能·计算机视觉
AiTop10017 小时前
跨数据中心的创新:Moonshot AI与清华大学提出PrfaaS架构
人工智能·ai·架构
深藏功yu名17 小时前
大模型推理加速实战技术
人工智能·python·ai·pycharm
GISer_Jing17 小时前
AI时代前端开发者成长计划
前端·人工智能
Swilderrr17 小时前
学术研读报告:Mem0 面向生产级 AI 智能体的可扩展长期记忆架构
人工智能·学习
云烟成雨TD17 小时前
Spring AI Alibaba 1.x 系列【30】Nacos Skill Registry 的底层设计与实现
java·人工智能·spring
Zzj_tju17 小时前
大语言模型部署实战:从 Ollama、vLLM 到 SGLang,本地服务到底怎么搭?
人工智能·语言模型·自然语言处理·vllm
不会学习的小白O^O17 小时前
使用可识别的CNN进行茶花检测和拔出点识别
人工智能
CS创新实验室17 小时前
AI推理进化史:从GPT到推理模型,AI的“思考能力”如何突破?
人工智能·gpt