Gpustack 运行一段时间后出现 Failed to initialize NVML: Unknown Error 解决办法

当 systemd 用于管理容器的 cgroup 并触发它重新加载任何引用 NVIDIA GPU 的 Unit 文件(例如 systemctl daemon-reload)时,容器化 GPU 工作负载可能会突然失去对其 GPU 的访问权限。

在 GPUStack 中,GPU 可能会在"资源"菜单中丢失,并且在 GPUStack 容器中运行 nvidia-smi 可能会导致错误: Failed to initialize NVML: Unknown Error

为了防止此问题,需要在 Docker 中禁用 systemd cgroup 管理。

/etc/docker/daemon.json 文件中设置参数 "exec-opts": ["native.cgroupdriver=cgroupfs"] 并重新启动 docker,例如:

复制代码
vim /etc/docker/daemon.json

{
  "runtimes": {
    "nvidia": {
      "args": [],
      "path": "nvidia-container-runtime"
    }
  },
  "exec-opts": ["native.cgroupdriver=cgroupfs"]
}

systemctl daemon-reload && systemctl restart docker

相关链接

相关推荐
BGoodHabit11 分钟前
从工程思维到产品思维:我用 AI 搭建内容生产系统的实战复盘
ai·llm·agi·自媒体·nano banana pro
m0_7471245336 分钟前
告别古法编程,拥抱AI时代
ai
嵌入式-老费38 分钟前
vivado hls的应用(第一个axi接口的ip)
linux·服务器·tcp/ip
ofoxcoding1 小时前
怎么用 API 搭一个 AI 客服机器人?从零到上线的完整方案
人工智能·ai·机器人
旺仔.2911 小时前
Linux系统基础详解(二)
linux·开发语言·网络
x***r1511 小时前
Notepad++ 8.6 安装教程:详细步骤+自定义安装路径(附注意事项)
linux·前端·javascript
big_rabbit05021 小时前
JVM堆内存查看命令
java·linux·算法
GoCodingInMyWay1 小时前
Triton 开始
ai·triton
Blurpath住宅代理1 小时前
AI代理配置实战指南:构建高可用、低风险的网络出口层
人工智能·ai·自动化·静态ip·动态代理·住宅ip·住宅代理
marsh02061 小时前
17 openclaw数据库连接池配置:避免性能瓶颈的关键
数据库·ai·oracle·编程·技术