Gpustack 运行一段时间后出现 Failed to initialize NVML: Unknown Error 解决办法

当 systemd 用于管理容器的 cgroup 并触发它重新加载任何引用 NVIDIA GPU 的 Unit 文件(例如 systemctl daemon-reload)时,容器化 GPU 工作负载可能会突然失去对其 GPU 的访问权限。

在 GPUStack 中,GPU 可能会在"资源"菜单中丢失,并且在 GPUStack 容器中运行 nvidia-smi 可能会导致错误: Failed to initialize NVML: Unknown Error

为了防止此问题,需要在 Docker 中禁用 systemd cgroup 管理。

/etc/docker/daemon.json 文件中设置参数 "exec-opts": ["native.cgroupdriver=cgroupfs"] 并重新启动 docker,例如:

复制代码
vim /etc/docker/daemon.json

{
  "runtimes": {
    "nvidia": {
      "args": [],
      "path": "nvidia-container-runtime"
    }
  },
  "exec-opts": ["native.cgroupdriver=cgroupfs"]
}

systemctl daemon-reload && systemctl restart docker

相关链接

相关推荐
爱凤的小光14 分钟前
图漾相机-ROS1_SDK_ubuntu 4.X.X版本编译
linux·数码相机·ubuntu
六点半88843 分钟前
【Linux】vim—基操
linux·vim·excel
CCF_NOI.2 小时前
从底层架构到多元场景:计算机构成与应用的深度剖析
大数据·linux·运维·服务器·计算机
_Meilinger_2 小时前
论文研读|基于图像修复的AI生成图像检测(CVPR 2025)
人工智能·深度学习·计算机视觉·ai·aigc·图像取证·生成图像检测
Jooolin2 小时前
【Linux】指令大全!常用的都在这了~
linux·操作系统·ai编程
₯㎕星空&繁华3 小时前
Linux—进程状态
linux·运维·服务器·笔记
银河码3 小时前
嵌入式linux驱动开发:什么是Linux驱动?深度解析与实战入门
linux·c语言·驱动开发·驱动入门
上邪o_O4 小时前
Git 的基本使用指南(1)
linux·git
测试蔡坨坨4 小时前
Trae Plus 让没有编程基础的女朋友也用上了 AI Coding
ai