解决Ubuntu22.04宿主机docker容器中nvidia-smi偶发失效问题

背景

在Ubuntu22.04的docker容器中部署了深度学习算法,发现跑一段时间后推理速度明显变慢,进一步分析发现容器中已经无法识别CUDA,自动切换成CPU推理,执行nvidia-smi也无法输出正常信息。

查看日志发现报错:

python 复制代码
root@d2c2ce179583:~# nvidia-smi
Failed to initialize NVML: Unknown Error

宿主机安装Nvidia驱动和nvidia-container-toolkit,在docker中安装cuda-tookit和cudnn。

复现问题

每次在宿主机执行下面指令后,到docker中都会再次查看nvidia-smi都会复现问题:

python 复制代码
sudo systemctl daemon-reload

解决方法

python 复制代码
sudo vim /etc/docker/daemon.json

# 在文件中添加:
{
   "exec-opts": ["native.cgroupdriver=cgroupfs"]
}
# 然后重启docker 服务
sudo service docker restart

参考链接

相关推荐
yunfuuwqi1 小时前
OpenClaw✅真·喂饭级教程:2026年OpenClaw(原Moltbot)一键部署+接入飞书最佳实践
运维·服务器·网络·人工智能·飞书·京东云
迎仔2 小时前
C-算力中心网络隔离实施方法:怎么搞?
运维·网络
代码游侠2 小时前
C语言核心概念复习——网络协议与TCP/IP
linux·运维·服务器·网络·算法
oMcLin3 小时前
2025年必备的Docker命令指南与实战示例
docker·容器·eureka
AtoposのCX3303 小时前
Docker运行hello-world镜像失败或超时
运维·docker
sun cat3 小时前
Docker详细介绍(6)
docker·容器·docker-compose
熊延4 小时前
麒麟V10系统安装部署elasticsearch
linux·运维·服务器·elasticsearch·搜索引擎·全文检索
Yeats_Liao7 小时前
评估体系构建:基于自动化指标与人工打分的双重验证
运维·人工智能·深度学习·算法·机器学习·自动化
小Pawn爷7 小时前
4.镜像仓库
docker
爱吃生蚝的于勒8 小时前
【Linux】进程信号之捕捉(三)
linux·运维·服务器·c语言·数据结构·c++·学习