解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
小饕几秒前
RAG学习之-Rerank 技术详解:从入门到面试
人工智能·学习
AI工具指南1 分钟前
2026年AI PPT工具横评:内容准确性、生成速度与排版质量实测
人工智能·powerpoint
东离与糖宝1 分钟前
模块化基础:包、模块、导入导出设计思想
人工智能
kishu_iOS&AI2 分钟前
机器学习 —— 总结
人工智能·python·机器学习·线性回归
Lab_AI4 分钟前
电子实验记录本ELN企业案例:创腾科技iLabPower ELN助力浙邦制药创新转型,降本增效!
人工智能
KubeSphere 云原生5 分钟前
云原生周刊:Kubernetes v1.36 前瞻
云原生·容器·kubernetes
才兄说7 分钟前
机器人二次开发高复杂度巡检?绕行率低于10%
人工智能·机器人
阿洛学长8 分钟前
AI编码工具重塑开发流程——GitHub Copilot实战应用与效率提升指南
人工智能·github·copilot
cczixun11 分钟前
GPT-6(Spud)全球发布:AGI 最后一公里,重新定义 AI 生产力边界
人工智能·gpt·agi
m0_7431064614 分钟前
【3D硬核】四元数(Quaternions)与旋转矩阵(Rotation)——三维空间中的旋转
人工智能·计算机视觉·3d·矩阵·几何学