【Docker】Docker 中不能使用 nvidia-smi

目录

[1. 问题](#1. 问题)

[2. 解决方法](#2. 解决方法)


1. 问题

在 docker 中执行 nvidia-smi 后报错:

复制代码
Failed to initialize NVML: Unknown Error

这个错误表示不能成功初始化NVML(Nvidia Management Library)库来管理和监测Nvidia GPU。可能的原因和解决方法如下:

  • 检查是否正确安装并加载了Nvidia的驱动。需要安装对应GPU型号的驱动包。

  • 检查docker容器是否正确映射了Nvidia设备。需要使用"--runtime=nvidia"和"-gpus all"参数启动容器。

  • 检查容器内是否安装了Nvidia的容器运行时(nvidia-container-runtime)包。

  • 检查主机与容器内部Linux内核版本是否兼容。需要主机和容器使用相同版本的内核。

  • 清除docker所有图像并重新构建容器。可能遗留的旧配置导致问题。

  • 重建docker服务,或重新启动Nvidia驱动。

  • 检查NVML本身是否损坏。可以尝试重新安装或者卸载后重新安装NVML相关依赖包。

  • 升级Nvidia驱动和硬件到最新版本,排除不兼容问题。

2. 解决方法

修改 docker 所在服务器的

复制代码
 /etc/nvidia-container-runtime/config.toml

中的参数为

复制代码
no-cgroups = false
相关推荐
杀生丸学AI19 小时前
【世界模型】video2world:从不一致视角重建世界
人工智能·三维重建·扩散模型·具身智能·视频生成·世界模型·空间智能
冬夜戏雪19 小时前
agent工程3 固定模板填充智能体
人工智能
梦星辰.19 小时前
大语言模型训练中的显存占用与优化方法简述
人工智能·深度学习·语言模型
deephub19 小时前
信息访问 vs. 推理能力:LLM Agent 性能归因的实验分析
人工智能·深度学习·大语言模型·agent
H_老邪19 小时前
Linux 与 Docker 常用命令
linux·运维·服务器·docker
前端小张同学19 小时前
有了AI大家的日常是轻松了还是更焦虑了呢?
人工智能·程序员·ai编程
博语小屋19 小时前
I/O 多路转接之epoll
运维·服务器·数据库
快手技术20 小时前
KAT-Coder-Pro V2:玩转龙虾,吃透美学
人工智能
sky wide20 小时前
[特殊字符] Docker Swarm 集群搭建指南
java·docker·容器
新钛云服20 小时前
如何构建一套自动化的阿里云费用报告系统
运维·阿里云·自动化·云计算