解决Ubuntu22.04宿主机docker容器中nvidia-smi偶发失效问题

背景

在Ubuntu22.04的docker容器中部署了深度学习算法,发现跑一段时间后推理速度明显变慢,进一步分析发现容器中已经无法识别CUDA,自动切换成CPU推理,执行nvidia-smi也无法输出正常信息。

查看日志发现报错:

python 复制代码
root@d2c2ce179583:~# nvidia-smi
Failed to initialize NVML: Unknown Error

宿主机安装Nvidia驱动和nvidia-container-toolkit,在docker中安装cuda-tookit和cudnn。

复现问题

每次在宿主机执行下面指令后,到docker中都会再次查看nvidia-smi都会复现问题:

python 复制代码
sudo systemctl daemon-reload

解决方法

python 复制代码
sudo vim /etc/docker/daemon.json

# 在文件中添加:
{
   "exec-opts": ["native.cgroupdriver=cgroupfs"]
}
# 然后重启docker 服务
sudo service docker restart

参考链接

相关推荐
匀泪2 小时前
云原生(nginx实验(4))
运维·nginx·云原生
daad7779 小时前
USB_抓包
linux·运维·服务器
未来之窗软件服务9 小时前
服务器运维(四十)日服务器linux-ps分析工具—东方仙盟
linux·运维·服务器·服务器运维·仙盟创梦ide·东方仙盟
礼拜天没时间.10 小时前
Docker自动化构建实战:从手工到多阶段构建的完美进化
运维·docker·容器·centos·自动化·sre
Trouvaille ~11 小时前
【Linux】数据链路层与以太网详解:从 MAC 地址到 ARP 的完整指南
linux·运维·服务器·网络·以太网·数据链路层·arp
xiaoliuliu1234511 小时前
Xftp-7.0.0109p文件传输安装步骤详解(附FTP/SFTP连接与文件传输教程)
运维·服务器
小鸡食米11 小时前
LVS(Linux Virtual Server)
运维·服务器·网络
罗技12313 小时前
Docker启动Coco AI Server后,如何访问内置Easysearch?
人工智能·docker·容器
DeeplyMind13 小时前
第14章 挂载宿主机目录(Bind Mount)(最常用,重要)
运维·docker·云原生·容器·eureka
DeeplyMind13 小时前
第17章 Docker网络实战与高级管理
网络·docker·容器