Gpustack 运行一段时间后出现 Failed to initialize NVML: Unknown Error 解决办法

当 systemd 用于管理容器的 cgroup 并触发它重新加载任何引用 NVIDIA GPU 的 Unit 文件(例如 systemctl daemon-reload)时,容器化 GPU 工作负载可能会突然失去对其 GPU 的访问权限。

在 GPUStack 中,GPU 可能会在"资源"菜单中丢失,并且在 GPUStack 容器中运行 nvidia-smi 可能会导致错误: Failed to initialize NVML: Unknown Error

为了防止此问题,需要在 Docker 中禁用 systemd cgroup 管理。

/etc/docker/daemon.json 文件中设置参数 "exec-opts": ["native.cgroupdriver=cgroupfs"] 并重新启动 docker,例如:

复制代码
vim /etc/docker/daemon.json

{
  "runtimes": {
    "nvidia": {
      "args": [],
      "path": "nvidia-container-runtime"
    }
  },
  "exec-opts": ["native.cgroupdriver=cgroupfs"]
}

systemctl daemon-reload && systemctl restart docker

相关链接

相关推荐
武子康3 小时前
AI-调查研究-76-具身智能 当机器人走进生活:具身智能对就业与社会结构的深远影响
人工智能·程序人生·ai·职场和发展·机器人·生活·具身智能
小鹿清扫日记3 小时前
从蛮力清扫到 “会看路”:室外清洁机器人的文明进阶
人工智能·ai·机器人·扫地机器人·具身智能·连合直租·有鹿巡扫机器人
杰锅就是爱情3 小时前
OpenObserve Ubuntu部署
linux·运维·ubuntu
m0_603888713 小时前
Calibrating MLLM-as-a-judge via Multimodal Bayesian Prompt Ensembles
ai·prompt·论文速览
huangjiazhi_6 小时前
在Linux上无法访问usb视频设备
linux·运维·服务器
yyy0002007 小时前
压缩和归档 文件传输
linux·运维·服务器
STCNXPARM7 小时前
深度剖析Linux内核无线子系统架构
linux·运维·系统架构·wifi·无线子系统
烟雨书信8 小时前
LINUX中Docker Swarm的介绍和使用
java·linux·docker
代码的余温8 小时前
Linux内核调优实战指南
linux·服务器·数据库
Lululaurel9 小时前
机器学习系统框架:核心分类、算法与应用全景解析
人工智能·算法·机器学习·ai·分类