解决Ubuntu22.04宿主机docker容器中nvidia-smi偶发失效问题

背景

在Ubuntu22.04的docker容器中部署了深度学习算法,发现跑一段时间后推理速度明显变慢,进一步分析发现容器中已经无法识别CUDA,自动切换成CPU推理,执行nvidia-smi也无法输出正常信息。

查看日志发现报错:

python 复制代码
root@d2c2ce179583:~# nvidia-smi
Failed to initialize NVML: Unknown Error

宿主机安装Nvidia驱动和nvidia-container-toolkit,在docker中安装cuda-tookit和cudnn。

复现问题

每次在宿主机执行下面指令后,到docker中都会再次查看nvidia-smi都会复现问题:

python 复制代码
sudo systemctl daemon-reload

解决方法

python 复制代码
sudo vim /etc/docker/daemon.json

# 在文件中添加:
{
   "exec-opts": ["native.cgroupdriver=cgroupfs"]
}
# 然后重启docker 服务
sudo service docker restart

参考链接

相关推荐
雪可问春风1 天前
docker环境部署
运维·docker·容器
lwx9148521 天前
Linux-Shell算术运算
linux·运维·服务器
翻斗包菜1 天前
PostgreSQL 日常维护完全指南:从基础操作到高级运维
运维·数据库·postgresql
somi71 天前
ARM-驱动-02-Linux 内核开发环境搭建与编译
linux·运维·arm开发
双份浓缩馥芮白1 天前
【Docker】Linux 迁移 docker 目录(软链接)
linux·docker
海的透彻1 天前
nginx启动进程对文件的权限掌控
运维·chrome·nginx
路溪非溪1 天前
Linux驱动开发中的常用接口总结(一)
linux·运维·驱动开发
航Hang*1 天前
第3章:Linux系统安全管理——第2节:部署代理服务
linux·运维·服务器·开发语言·笔记·系统安全
北方的流星1 天前
华三网络设备的路由重定向配置
运维·网络·华三
河南博为智能科技有限公司1 天前
蓄电池在线监测系统-守护数据中心安全防线
运维·边缘计算