Gpustack 运行一段时间后出现 Failed to initialize NVML: Unknown Error 解决办法

当 systemd 用于管理容器的 cgroup 并触发它重新加载任何引用 NVIDIA GPU 的 Unit 文件(例如 systemctl daemon-reload)时,容器化 GPU 工作负载可能会突然失去对其 GPU 的访问权限。

在 GPUStack 中,GPU 可能会在"资源"菜单中丢失,并且在 GPUStack 容器中运行 nvidia-smi 可能会导致错误: Failed to initialize NVML: Unknown Error

为了防止此问题,需要在 Docker 中禁用 systemd cgroup 管理。

/etc/docker/daemon.json 文件中设置参数 "exec-opts": ["native.cgroupdriver=cgroupfs"] 并重新启动 docker,例如:

复制代码
vim /etc/docker/daemon.json

{
  "runtimes": {
    "nvidia": {
      "args": [],
      "path": "nvidia-container-runtime"
    }
  },
  "exec-opts": ["native.cgroupdriver=cgroupfs"]
}

systemctl daemon-reload && systemctl restart docker

相关链接

相关推荐
七七七七071 天前
【Linux系统】进程替换
linux·运维·服务器
skyutuzz1 天前
vim删除文本文件内容
linux·编辑器·vim
---学无止境---1 天前
Linux信号处理的相关数据结构和操作函数
linux
前行居士1 天前
Sub-process /usr/bin/dpkg returned an error code (1)
linux·运维·windows
tt5555555555551 天前
Linux 驱动开发入门:LCD 驱动与内核机制详解
linux·运维·驱动开发
行者..................1 天前
petalinux 安装Armadillo
linux·运维·服务器
xiatianit1 天前
【centos生产环境搭建(三)jdk环境配置】
linux
zhaotiannuo_19981 天前
linux centos 7 解决终端提示符出现-bash-4.2的问题
linux·centos·bash
wangjialelele1 天前
OSI模型、网络地址、与协议
linux·服务器·网络·tcp/ip
何中应1 天前
CentOS安装Jenkins
linux·centos·jenkins