解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
lixin55655618 分钟前
基于迁移学习的图像风格增强器
java·人工智能·pytorch·python·深度学习·语言模型
byzh_rc20 分钟前
[数学建模从入门到入土] 评价模型
网络·人工智能·深度学习·数学建模·回归·ar
阡陌..24 分钟前
浅谈SAR图像处理---形态学滤波
图像处理·人工智能·python
renhongxia130 分钟前
多机器人环境监测中的异质性,用于解决时间冲突任务
人工智能·信息可视化·语言模型·自然语言处理·数据分析·机器人
扑火的小飞蛾32 分钟前
RHEL 7 安装 Docker 过程总结
运维·docker·容器
源于花海1 小时前
迁移学习的第三类方法:子空间学习(2)——流形学习
人工智能·机器学习·迁移学习·流形学习·子空间学习
方安乐1 小时前
杂记:文档解析器之MinerU
人工智能
AI猫站长1 小时前
快讯|星海图、众擎机器人、魔法原子释放IPO信号,2026年或成上市大年
人工智能·机器人·具身智能·灵心巧手·上市·星海图·众擎机器人
鲁邦通物联网1 小时前
基于容器化的边缘计算网关应用部署实践:Python+MQTT
人工智能·边缘计算·数据采集·工业数据采集·边缘计算网关·5g数采
方安乐1 小时前
杂记:文档解析器
人工智能