解决Ubuntu22.04宿主机docker容器中nvidia-smi偶发失效问题

背景

在Ubuntu22.04的docker容器中部署了深度学习算法,发现跑一段时间后推理速度明显变慢,进一步分析发现容器中已经无法识别CUDA,自动切换成CPU推理,执行nvidia-smi也无法输出正常信息。

查看日志发现报错:

python 复制代码
root@d2c2ce179583:~# nvidia-smi
Failed to initialize NVML: Unknown Error

宿主机安装Nvidia驱动和nvidia-container-toolkit,在docker中安装cuda-tookit和cudnn。

复现问题

每次在宿主机执行下面指令后,到docker中都会再次查看nvidia-smi都会复现问题:

python 复制代码
sudo systemctl daemon-reload

解决方法

python 复制代码
sudo vim /etc/docker/daemon.json

# 在文件中添加:
{
   "exec-opts": ["native.cgroupdriver=cgroupfs"]
}
# 然后重启docker 服务
sudo service docker restart

参考链接

相关推荐
zhanghaofaowhrql5 小时前
Cursor+GitOps:自动化运维新姿势
运维·自动化
梦想的颜色7 小时前
硬核实践:使用 Docker 部署生产级 Redis(持久化 + 安全配置 + 高可用)
redis·docker·redis持久化·docker compose·redis哨兵·rdb aof
weixin_471383037 小时前
Docker - 05 - 构建流程
运维·docker·容器
夏玉林的学习之路8 小时前
如何远程连接服务器
运维·服务器
风曦Kisaki9 小时前
#Linux数据库管理Day06:主从同步与MaxScale读写分离
linux·运维·数据库
Tipriest_10 小时前
ubuntu创建和更换当前swap大小
linux·运维·ubuntu
雨辰AI10 小时前
生产级实战:人大金仓 V9 标准化运维手册(日常巡检 + 监控告警 + 应急处置)
java·运维·数据库·后端
ejinxian11 小时前
微虚拟机 smolvm 与Docker 容器比较
运维·docker·容器·smolvm
ShiXZ21311 小时前
PDF-OCR文件识别篇(八):配置、运维与排错
java·运维·ocr·dubbo·springboot
爱码少年11 小时前
Docker如何一次查看多个容器日志
运维·docker·容器