Gpustack 运行一段时间后出现 Failed to initialize NVML: Unknown Error 解决办法

当 systemd 用于管理容器的 cgroup 并触发它重新加载任何引用 NVIDIA GPU 的 Unit 文件(例如 systemctl daemon-reload)时,容器化 GPU 工作负载可能会突然失去对其 GPU 的访问权限。

在 GPUStack 中,GPU 可能会在"资源"菜单中丢失,并且在 GPUStack 容器中运行 nvidia-smi 可能会导致错误: Failed to initialize NVML: Unknown Error

为了防止此问题,需要在 Docker 中禁用 systemd cgroup 管理。

/etc/docker/daemon.json 文件中设置参数 "exec-opts": "native.cgroupdriver=cgroupfs" 并重新启动 docker,例如:

复制代码
vim /etc/docker/daemon.json

{
  "runtimes": {
    "nvidia": {
      "args": [],
      "path": "nvidia-container-runtime"
    }
  },
  "exec-opts": ["native.cgroupdriver=cgroupfs"]
}

systemctl daemon-reload && systemctl restart docker

相关链接

相关推荐
杨充1 分钟前
1.1 数据编码设计原理
linux·运维·网络·底层原理·数据编码
fan_music1 分钟前
Linux I/O
linux
Java小白笔记3 分钟前
Linux 手动部署 Oracle JDK 17 完全指南
java·linux·oracle
专注VB编程开发20年23 分钟前
腾讯模型广场DeepSeek 这种热门模型:腾讯云有自己部署,其它小厂第三方模型(百川、智谱等):走对方 API 转发
ai·大模型
m0_5358175538 分钟前
macOS上Claude Code安装配置保姆级教程:国内直连API,从0到1跑通(附避坑指南)
gpt·macos·ai·node.js·claude·claudecode·88api
lhxcc_fly1 小时前
2.LangChain--聊天模型之流式传输
ai·langchain·llm·流式传输
慵懒的猫mi1 小时前
deepin 25部署x11vnc+xrdp,实现vnc和mstsc双重访问
linux·windows·开源软件·deepin
剑神一笑2 小时前
Linux lsof 命令深度解析:从文件描述符到进程追踪
linux·运维·php
andlbds3 小时前
解决Ubuntu20.04进入系统卡死在厂商Logo界面问题
linux·ubuntu