解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
GISer_Jing3 小时前
2026前端技术潜在主流前沿方向
前端·人工智能·reactjs
DARLING Zero two♡3 小时前
几何直觉与概率流动的交响:深度解析《理解深度学习》的重构之美
人工智能·深度学习·重构
雨大王5123 小时前
如何用工业AI大模型提升汽车零部件制造效率?
人工智能·汽车·制造
难评哥3 小时前
从工程实践看端到端 ASR:技术原理与讯飞听见实测分析(2026)
人工智能·程序人生
iwgh3 小时前
开源全能意图、指令识别框架 OddAgent 更新
人工智能·自然语言处理·开源
2401_841495643 小时前
AIGC:重塑内容生产,开启智能创作新纪元
人工智能·aigc·元宇宙·智能赋能·虚拟现实·生成式人工智能·智能创作
AI即插即用3 小时前
即插即用系列 | CVPR 2025 CATANet:一种用于轻量级图像超分辨率的高效内容感知 Token 聚合网络
图像处理·人工智能·深度学习·神经网络·计算机视觉·超分辨率重建
Struart_R3 小时前
VideoLLM相关论文(一)
人工智能·深度学习
Sanse_3 小时前
Ubuntu18.04下面配置阿木实验室amov仿真系统Promethus的一系列运行环境
人工智能·机器人·自动驾驶
yuhaiqun19893 小时前
SQL+VSCode实战指南:AI赋能高效数据库操作
数据库·人工智能·经验分享·vscode·sql·学习·学习方法