安装NVIDIA Container Toolkit,让gpu容器环境跑通

一、简介

前言:为什么需要它?

在AI模型训练、深度学习推理或图形渲染等场景中,我们常常希望将应用打包在Docker容器中运行,以获得环境一致性和部署便利性。但默认情况下,Docker容器是无法"看见"宿主机的GPU资源的。

NVIDIA Container Toolkit(以前称为nvidia-docker2)就是为了解决这个问题而生的。它充当了Docker与NVIDIA驱动之间的桥梁,让容器内的应用能够像在原生物理机上一样,直接调用宿主机的GPU进行加速计算。

本文将手把手教你如何在Ubuntu系统上安装并配置NVIDIA Container Toolkit,让你的Docker容器也能"跑"起来。

安装前的准备工作

在开始之前,请确保你的环境满足以下两个核心条件:

NVIDIA显卡驱动已安装:宿主机必须已经安装了正确的NVIDIA显卡驱动。你可以在终端输入nvidia-smi命令来验证。如果能正常显示显卡信息列表,说明驱动已就绪。
  • nvidia驱动我是在线装的 装的535版本
复制代码
  apt install -y nvidia-driver-535
Docker已安装并运行:确保Docker Engine已经安装,并且服务处于运行状态。可以通过docker ps命令检查。

docker安装可以看看我之前的博客

要跑 GPU 容器,必须按这个顺序:
复制代码
NVIDIA 驱动 ✅
   ↓
nvidia-smi 正常 ✅
   ↓
nvidia-container-toolkit ✅
   ↓
Docker 才能用 GPU

二、NVIDIA Container Toolkit安装指南:让Docker容器轻松调用GPU

1)添加NVIDIA官方源
复制代码
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
2)更新源并安装Toolkit
复制代码
apt update
apt install -y nvidia-container-toolkit

##慢的话可以考虑加个代理
3)配置 Docker 使用 GPU
复制代码
nvidia-ctk runtime configure --runtime=docker
4)重启 Docker
复制代码
systemctl restart docker 
5)验证驱动和容器工具包状态
复制代码
nvidia-smi >/dev/null 2>&1 && echo "NVIDIA driver OK" || (echo "NVIDIA driver issue"; exit 1) && sudo docker info 2>/dev/null | grep -q "Runtime.*nvidia" && echo "NVIDIA Container Toolkit OK" || (echo "NVIDIA Container Toolkit not configured"; exit 1)
  • 若输出 NVIDIA driver OK + NVIDIA Container Toolkit OK,说明驱动和工具包均配置正常;

  • 若输出 NVIDIA driver issue,需先排查NVIDIA显卡驱动安装问题;

  • 若输出 NVIDIA Container Toolkit not configured,需重新执行二 1)-4)步骤配置Toolkit

三、验证安装是否成功

激动人心的时刻到了!让我们来验证一下,容器是否真的可以使用GPU了。

我们将从NVIDIA官方拉取一个包含CUDA环境的测试镜像,并在容器内运行nvidia-smi命令:

复制代码
docker run --rm --gpus all nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi

命令解读

  • docker run:启动一个容器。
  • --rm:容器退出后自动删除,保持环境整洁。
  • --gpus all:关键参数!告诉Docker将所有可用的GPU设备都挂载到容器内。
  • nvidia/cuda:12.4.1-base-ubuntu22.04:使用的测试镜像。
  • nvidia-smi:容器启动后要执行的命令。

成功标志

如果一切顺利,你将看到与在宿主机上运行nvidia-smi类似的输出,清晰地显示出你的GPU型号、显存使用情况、驱动版本等信息。这就意味着,NVIDIA Container Toolkit已经成功安装并正常工作了!

相关推荐
码农小白AI21 小时前
AI报告审核加速融入自动化实验室:IACheck破解智能设备时代报告管理新挑战
运维·人工智能·自动化
utf8mb4安全女神21 小时前
克隆的虚拟机怎么更改ip地址
运维
万能的知了1 天前
服务器托管 vs 云主机 vs 裸金属:一个决策故事
运维·服务器·云计算
杨云龙UP1 天前
Oracle RAC / ODA 生产环境指定 PDB 启动 SOP
linux·运维·数据库·oracle
luweis1 天前
企智孪生 ETA(3.3 认知算法层:ETA 的思维内核 3.4 基础架构:算力与弹性)【浙江联保网络 卢伟舜】
大数据·运维·线性代数·ai·矩阵·学习方法
极客老王说Agent1 天前
屏幕理解能力是下一代自动化的关键吗?2026年自动化范式演进深度解析
运维·人工智能·ai·chatgpt·自动化
LT10157974441 天前
2026年电商RPA选型指南:电商运营全流程自动化测评
运维·自动化·rpa
JAVA社区1 天前
Java高级全套教程(十一)—— Kubernetes 超详细企业级实战详解
java·运维·微服务·容器·面试·kubernetes
lihao lihao1 天前
linux匿名管道
linux·运维·服务器
STDD1 天前
Farming Simulator 25(模拟农场 25) Linux 专服搭建完全指南
linux·运维·javascript