解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
胡伯来了8 小时前
19. Transformers - 文本领域的任务类
人工智能·transformer·多模态·transformers
Fabarta技术团队8 小时前
枫清科技项目成功入选市科委、中关村管委会2025年重点应用场景项目名单
人工智能·科技
是店小二呀8 小时前
出差忘带文件?我的急救方案节点小宝4.0
人工智能
李子琪。8 小时前
AI创新创业:从技术赋能到范式革命
人工智能
LJ97951118 小时前
智能连接:Infoseek如何重新定义媒体发布效率
大数据·人工智能
字节跳动视频云技术团队8 小时前
从“抖音同款”到“豆包同款”:视频云正在进入 Agent 时代
人工智能
狮子也疯狂8 小时前
昇腾ModelSlim工具:大模型量化推理优化实践指南
人工智能
小白开始进步8 小时前
OpenCV图像滤波:Python实战指南
人工智能·python·opencv
island13148 小时前
PyTorch 2.0 核心技术深度解析torch.compile 从原理到实践
人工智能·pytorch·python
车企求职辅导8 小时前
新能源汽车零部件全品类汇总
人工智能·算法·车载系统·自动驾驶·汽车·智能驾驶·智能座舱