解决Ubuntu22.04宿主机docker容器中nvidia-smi偶发失效问题

yeflx2026-01-18 20:12

背景

在Ubuntu22.04的docker容器中部署了深度学习算法，发现跑一段时间后推理速度明显变慢，进一步分析发现容器中已经无法识别CUDA，自动切换成CPU推理，执行nvidia-smi也无法输出正常信息。

查看日志发现报错：

python 复制代码

root@d2c2ce179583:~# nvidia-smi
Failed to initialize NVML: Unknown Error

宿主机安装Nvidia驱动和nvidia-container-toolkit，在docker中安装cuda-tookit和cudnn。

每次在宿主机执行下面指令后，到docker中都会再次查看nvidia-smi都会复现问题：

python 复制代码

sudo systemctl daemon-reload

python 复制代码

sudo vim /etc/docker/daemon.json

# 在文件中添加：
{
   "exec-opts": ["native.cgroupdriver=cgroupfs"]
}
# 然后重启docker 服务
sudo service docker restart