Gpustack 运行一段时间后出现 Failed to initialize NVML: Unknown Error 解决办法

当 systemd 用于管理容器的 cgroup 并触发它重新加载任何引用 NVIDIA GPU 的 Unit 文件(例如 systemctl daemon-reload)时,容器化 GPU 工作负载可能会突然失去对其 GPU 的访问权限。

在 GPUStack 中,GPU 可能会在"资源"菜单中丢失,并且在 GPUStack 容器中运行 nvidia-smi 可能会导致错误: Failed to initialize NVML: Unknown Error

为了防止此问题,需要在 Docker 中禁用 systemd cgroup 管理。

/etc/docker/daemon.json 文件中设置参数 "exec-opts": ["native.cgroupdriver=cgroupfs"] 并重新启动 docker,例如:

复制代码
vim /etc/docker/daemon.json

{
  "runtimes": {
    "nvidia": {
      "args": [],
      "path": "nvidia-container-runtime"
    }
  },
  "exec-opts": ["native.cgroupdriver=cgroupfs"]
}

systemctl daemon-reload && systemctl restart docker

相关链接

相关推荐
何妨呀~6 分钟前
Keepalived+Haproxy高可用集群实验
linux·服务器·网络
林鸿风采21 分钟前
在Alpine Linux上部署docker和Portainer管理工具
linux·运维·docker·portainer
float_六七23 分钟前
设备分配核心数据结构全解析
linux·服务器·数据结构
GHL2842710901 小时前
Prompt(提示词)编写原则和技巧
ai·prompt·ai编程
比奇堡派星星1 小时前
Linux OOM Killer
linux·开发语言·arm开发·驱动开发
wifi chicken2 小时前
Linux 内核开发之单链表的增删查改详解
linux·数据结构·链表
eso19832 小时前
白话讲述监督学习、非监督学习、强化学习
算法·ai·聚类
jiuri_12152 小时前
深入理解 Linux 内核同步机制
linux·内核
天上掉下个牛霸天3 小时前
2025年十大技术趋势前瞻
人工智能·ai
郝学胜-神的一滴3 小时前
Python数据封装与私有属性:保护你的数据安全
linux·服务器·开发语言·python·程序人生