解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
逻辑君3 分钟前
认知神经科学研究报告【20260023】
人工智能·神经网络·机器学习
无心水10 分钟前
【Hermes:MCP 与工具实战】28、GitHub MCP 深度实战:PR 审查、Issue、自动汇报全搞定
人工智能·github·issue·openclaw·养龙虾·hermes·honcho
β添砖java23 分钟前
深度学习(21)使用块的网络VGG
网络·人工智能·深度学习
数智联AI团队23 分钟前
AI员工时代已来:企业如何选择靠谱的“AI团队”实现降本增效?
大数据·人工智能
Java后端的Ai之路24 分钟前
大模型数据飞轮核心技术一篇讲透:原理、架构、企业级案例与2026最全实践指南
人工智能·python·架构·数据飞轮
周末也要写八哥25 分钟前
代码中的注释的重要性(一)
人工智能·机器学习
不懂的浪漫28 分钟前
AI时代:大模型是水,普通开发者的船是什么?
人工智能
一拳一个娘娘腔30 分钟前
告别Demo陷阱:从金融风控到智能制造,拆解AI大规模落地的架构设计与价值闭环
人工智能·制造
lilihuigz33 分钟前
WordPress 7.0 AI基础设施详解:能力API、AI客户端与MCP适配器如何重塑插件生态
人工智能·wordpress·独立站
测试员周周34 分钟前
【AI测试功能3】AI功能测试的三层架构:单元测试 → 集成测试 → E2E测试——AI系统测试金字塔实战指南
开发语言·人工智能·python·功能测试·架构·单元测试·集成测试