Gpustack 运行一段时间后出现 Failed to initialize NVML: Unknown Error 解决办法

当 systemd 用于管理容器的 cgroup 并触发它重新加载任何引用 NVIDIA GPU 的 Unit 文件(例如 systemctl daemon-reload)时,容器化 GPU 工作负载可能会突然失去对其 GPU 的访问权限。

在 GPUStack 中,GPU 可能会在"资源"菜单中丢失,并且在 GPUStack 容器中运行 nvidia-smi 可能会导致错误: Failed to initialize NVML: Unknown Error

为了防止此问题,需要在 Docker 中禁用 systemd cgroup 管理。

/etc/docker/daemon.json 文件中设置参数 "exec-opts": ["native.cgroupdriver=cgroupfs"] 并重新启动 docker,例如:

复制代码
vim /etc/docker/daemon.json

{
  "runtimes": {
    "nvidia": {
      "args": [],
      "path": "nvidia-container-runtime"
    }
  },
  "exec-opts": ["native.cgroupdriver=cgroupfs"]
}

systemctl daemon-reload && systemctl restart docker

相关链接

相关推荐
chlk1233 小时前
Linux文件权限完全图解:读懂 ls -l 和 chmod 755 背后的秘密
linux·操作系统
舒一笑4 小时前
Ubuntu系统安装CodeX出现问题
linux·后端
改一下配置文件4 小时前
Ubuntu24.04安装NVIDIA驱动完整指南(含Secure Boot解决方案)
linux
深紫色的三北六号14 小时前
Linux 服务器磁盘扩容与目录迁移:rsync + bind mount 实现服务无感迁移(无需修改配置)
linux·扩容·服务迁移
SudosuBash18 小时前
[CS:APP 3e] 关于对 第 12 章 读/写者的一点思考和题解 (作业 12.19,12.20,12.21)
linux·并发·操作系统(os)
哈基咪怎么可能是AI1 天前
为什么我就想要「线性历史 + Signed Commits」GitHub 却把我当猴耍 🤬🎙️
linux·github
哥不是小萝莉2 天前
OpenClaw 架构设计全解析
ai
十日十行2 天前
Linux和window共享文件夹
linux