安装NVIDIA Container Toolkit,让gpu容器环境跑通

一、简介

前言:为什么需要它?

在AI模型训练、深度学习推理或图形渲染等场景中,我们常常希望将应用打包在Docker容器中运行,以获得环境一致性和部署便利性。但默认情况下,Docker容器是无法"看见"宿主机的GPU资源的。

NVIDIA Container Toolkit(以前称为nvidia-docker2)就是为了解决这个问题而生的。它充当了Docker与NVIDIA驱动之间的桥梁,让容器内的应用能够像在原生物理机上一样,直接调用宿主机的GPU进行加速计算。

本文将手把手教你如何在Ubuntu系统上安装并配置NVIDIA Container Toolkit,让你的Docker容器也能"跑"起来。

安装前的准备工作

在开始之前,请确保你的环境满足以下两个核心条件:

NVIDIA显卡驱动已安装:宿主机必须已经安装了正确的NVIDIA显卡驱动。你可以在终端输入nvidia-smi命令来验证。如果能正常显示显卡信息列表,说明驱动已就绪。
  • nvidia驱动我是在线装的 装的535版本
复制代码
  apt install -y nvidia-driver-535
Docker已安装并运行:确保Docker Engine已经安装,并且服务处于运行状态。可以通过docker ps命令检查。

docker安装可以看看我之前的博客

要跑 GPU 容器,必须按这个顺序:
复制代码
NVIDIA 驱动 ✅
   ↓
nvidia-smi 正常 ✅
   ↓
nvidia-container-toolkit ✅
   ↓
Docker 才能用 GPU

二、NVIDIA Container Toolkit安装指南:让Docker容器轻松调用GPU

1)添加NVIDIA官方源
复制代码
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
2)更新源并安装Toolkit
复制代码
apt update
apt install -y nvidia-container-toolkit

##慢的话可以考虑加个代理
3)配置 Docker 使用 GPU
复制代码
nvidia-ctk runtime configure --runtime=docker
4)重启 Docker
复制代码
systemctl restart docker 
5)验证驱动和容器工具包状态
复制代码
nvidia-smi >/dev/null 2>&1 && echo "NVIDIA driver OK" || (echo "NVIDIA driver issue"; exit 1) && sudo docker info 2>/dev/null | grep -q "Runtime.*nvidia" && echo "NVIDIA Container Toolkit OK" || (echo "NVIDIA Container Toolkit not configured"; exit 1)
  • 若输出 NVIDIA driver OK + NVIDIA Container Toolkit OK,说明驱动和工具包均配置正常;

  • 若输出 NVIDIA driver issue,需先排查NVIDIA显卡驱动安装问题;

  • 若输出 NVIDIA Container Toolkit not configured,需重新执行二 1)-4)步骤配置Toolkit

三、验证安装是否成功

激动人心的时刻到了!让我们来验证一下,容器是否真的可以使用GPU了。

我们将从NVIDIA官方拉取一个包含CUDA环境的测试镜像,并在容器内运行nvidia-smi命令:

复制代码
docker run --rm --gpus all nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi

命令解读

  • docker run:启动一个容器。
  • --rm:容器退出后自动删除,保持环境整洁。
  • --gpus all:关键参数!告诉Docker将所有可用的GPU设备都挂载到容器内。
  • nvidia/cuda:12.4.1-base-ubuntu22.04:使用的测试镜像。
  • nvidia-smi:容器启动后要执行的命令。

成功标志

如果一切顺利,你将看到与在宿主机上运行nvidia-smi类似的输出,清晰地显示出你的GPU型号、显存使用情况、驱动版本等信息。这就意味着,NVIDIA Container Toolkit已经成功安装并正常工作了!

相关推荐
Run_Teenage2 小时前
Linux:理解中断
linux·运维·服务器
北山有鸟2 小时前
解析 Linux 内核驱动中的“换行美学”
linux·运维·服务器
Run_Teenage2 小时前
Linux:信号保存与捕捉
运维·服务器
龙侠九重天2 小时前
可视化自动化工具实现
运维·自动化·openclaw
水冗水孚2 小时前
以Vultr供应商的VPS为例、十分钟自建一个自己的VPN(图文并茂)
运维·服务器
巨大八爪鱼2 小时前
【方法】Tomcat网站添加用户名密码弹窗认证
运维·服务器·tomcat·jsp·mod_jk
unDl IONA2 小时前
Linux安装RabbitMQ
linux·运维·rabbitmq
米高梅狮子2 小时前
Ubuntu和Containerd
linux·运维·ubuntu
片酷2 小时前
【IsaacLab报错】C++ 标准库版本过低
linux·运维·服务器