解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:launch.py:315:sigkill_handler Killing subprocess

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)

解决办法

docker stop 容器名

docker rm 容器名

重新生成容器时加上共享内存参数:--shm-size=1g

例:

docker run -it -d --shm-size=50g --name 容器名--net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

相关推荐
云烟成雨TD2 分钟前
Spring AI 1.x 系列【40】MCP 客户端 Spring Boot 启动器
人工智能·spring boot·spring
糖果店的幽灵3 分钟前
Spring AI 从入门到精通-Spring AI 是什么
java·人工智能·spring
不知名的老吴3 分钟前
机器学习评价之基础指标
人工智能·算法·机器学习
申通之声3 分钟前
3年稳定率90%+:申通五星管理经
大数据·人工智能·交通物流
陕西企来客4 分钟前
西安豆包获客技巧深度解析:核心问题与原因分析
人工智能
超人也会哭️呀5 分钟前
视觉模型中的坐标漂移
人工智能·ai·llm·ocr·vlm·视觉模型·dots.ocr
tedcloud1237 分钟前
FluentFlyout部署教程:打造更美观的Windows桌面环境
数据库·人工智能·sql·学习·自动化
LoserChaser7 分钟前
大语言模型基础-语言模型与 Transformer 架构
人工智能·语言模型·transformer
Token炼金师9 分钟前
RoPE 解构:从复数平面到 Transformer 的位置魔法
人工智能