背景
在Ubuntu22.04的docker容器中部署了深度学习算法,发现跑一段时间后推理速度明显变慢,进一步分析发现容器中已经无法识别CUDA,自动切换成CPU推理,执行nvidia-smi也无法输出正常信息。
查看日志发现报错:
python
root@d2c2ce179583:~# nvidia-smi
Failed to initialize NVML: Unknown Error
宿主机安装Nvidia驱动和nvidia-container-toolkit,在docker中安装cuda-tookit和cudnn。
复现问题
每次在宿主机执行下面指令后,到docker中都会再次查看nvidia-smi都会复现问题:
python
sudo systemctl daemon-reload
解决方法
python
sudo vim /etc/docker/daemon.json
# 在文件中添加:
{
"exec-opts": ["native.cgroupdriver=cgroupfs"]
}
# 然后重启docker 服务
sudo service docker restart