解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
ccLianLian19 小时前
计算机基础·cs336·推理和训练
人工智能·深度学习
鹅是开哥19 小时前
Spring AI Alibaba + DashScope 调用超时彻底解决(SocketTimeoutException / read timeout)
java·人工智能·spring
网易伏羲19 小时前
以数据驱动工程机械智能化,网易灵动入选杭州国家语料库首批高质量数据集榜单
人工智能·具身智能·网易伏羲·网易灵动
够快云库19 小时前
2026信创架构实战:制造业非结构化数据的深度治理之道
人工智能·架构·企业文件管理
@hdd19 小时前
Kubernetes 集群架构概述
容器·架构·kubernetes
lisw0519 小时前
机器人系统:化学研究的超空间引擎——从自动化到智能化的范式革命
大数据·人工智能·科技·机器学习·机器人
DR564719 小时前
第 1 章 绪论
人工智能
卓豪终端管理19 小时前
实力领跑!卓豪荣获 2026 高德纳双料认可
大数据·数据库·人工智能
文心快码BaiduComate19 小时前
百度文心快码全面支持GLM-5
前端·人工智能
沉睡的无敌雄狮19 小时前
可编程数字人落地实践:某省广电用矩阵跃动API重构工作流(选题→政策图谱→方言音色→审稿水印),附Python调度代码
人工智能·python·重构·排序算法·kmeans