解决Ubuntu22.04宿主机docker容器中nvidia-smi偶发失效问题

背景

在Ubuntu22.04的docker容器中部署了深度学习算法,发现跑一段时间后推理速度明显变慢,进一步分析发现容器中已经无法识别CUDA,自动切换成CPU推理,执行nvidia-smi也无法输出正常信息。

查看日志发现报错:

python 复制代码
root@d2c2ce179583:~# nvidia-smi
Failed to initialize NVML: Unknown Error

宿主机安装Nvidia驱动和nvidia-container-toolkit,在docker中安装cuda-tookit和cudnn。

复现问题

每次在宿主机执行下面指令后,到docker中都会再次查看nvidia-smi都会复现问题:

python 复制代码
sudo systemctl daemon-reload

解决方法

python 复制代码
sudo vim /etc/docker/daemon.json

# 在文件中添加:
{
   "exec-opts": ["native.cgroupdriver=cgroupfs"]
}
# 然后重启docker 服务
sudo service docker restart

参考链接

相关推荐
4t4run2 小时前
28、Linux 系统定时任务
linux·运维·服务器
~黄夫人~2 小时前
Ansible 自动化运维:从 “手动输密码” 到 “一键免密管理”
linux·运维·自动化·ansible
cui__OaO2 小时前
Linux驱动--基于驱动设备分离的按键中断驱动
linux·运维·服务器·嵌入式
littlegirll2 小时前
ssh远程调用图形程序
运维·ssh·x11forwarding·远程调用图形界面
OnlyEasyCode3 小时前
Linux下载Navicat、特定版本Mysql
linux·运维·服务器
宇宙帅猴3 小时前
【Ubuntu踩坑及解决方案(一)】
linux·运维·ubuntu·go
济6173 小时前
linux 系统移植(第七期)----U-Boot 图形化配置及其原理-- Ubuntu20.04
linux·运维·服务器
kida_yuan4 小时前
【Linux】文件系统与 fsck.ext4 修复 - 我踩过的坑与总结
linux·运维·网络
Star Learning Python4 小时前
MySQL基础知识的总结
运维