Gpustack 运行一段时间后出现 Failed to initialize NVML: Unknown Error 解决办法

当 systemd 用于管理容器的 cgroup 并触发它重新加载任何引用 NVIDIA GPU 的 Unit 文件(例如 systemctl daemon-reload)时,容器化 GPU 工作负载可能会突然失去对其 GPU 的访问权限。

在 GPUStack 中,GPU 可能会在"资源"菜单中丢失,并且在 GPUStack 容器中运行 nvidia-smi 可能会导致错误: Failed to initialize NVML: Unknown Error

为了防止此问题,需要在 Docker 中禁用 systemd cgroup 管理。

/etc/docker/daemon.json 文件中设置参数 "exec-opts": ["native.cgroupdriver=cgroupfs"] 并重新启动 docker,例如:

复制代码
vim /etc/docker/daemon.json

{
  "runtimes": {
    "nvidia": {
      "args": [],
      "path": "nvidia-container-runtime"
    }
  },
  "exec-opts": ["native.cgroupdriver=cgroupfs"]
}

systemctl daemon-reload && systemctl restart docker

相关链接

相关推荐
学嵌入式的小杨同学38 分钟前
从零打造 Linux 终端 MP3 播放器!用 C 语言实现音乐自由
linux·c语言·开发语言·前端·vscode·ci/cd·vim
EverydayJoy^v^42 分钟前
RH134学习进程——十二.运行容器(1)
linux·运维·容器
syseptember43 分钟前
Linux网络基础
linux·网络·arm开发
zl_dfq1 小时前
Linux 之 【多线程】(线程的概念、Linux中的线程、页表)
linux
郝亚军2 小时前
如何在Ubuntu和win10/11之间通过samba访问对方的文件
linux·服务器·ubuntu
曦云沐2 小时前
【避坑指南】Ubuntu更新报错“Repository is not signed”的快速修复
linux·ubuntu·docker
AI大模型测试3 小时前
大龄程序员想转行到AI大模型,好转吗?
人工智能·深度学习·机器学习·ai·语言模型·职场和发展·大模型
带土13 小时前
10. .out文件
linux
STCNXPARM3 小时前
Linux camera之V4L2子系统详解
android·linux·camera·v4l2架构
badfl4 小时前
VSCode Claude Code插件配置教程:使用、配置中转API、常见问题
人工智能·vscode·ai