centos 7 安装NVIDIA Container Toolkit

要在 CentOS 7 上离线安装 NVIDIA Container Toolkit,需确保已安装 NVIDIA 驱动和 Docker 环境。以下是完整步骤及注意事项:


⚙️ 一、环境准备

  1. 验证 NVIDIA 驱动

    运行 nvidia-smi 确认驱动已正确安装,若未安装需先离线安装驱动:

    • 下载对应 GPU 型号的驱动包(如 NVIDIA-Linux-x86_64-xxx.run)。
    • 禁用系统自带 nouveau 驱动(修改 /etc/modprobe.d/blacklist.conf 并重建 initramfs)。
    • 通过 init 3 进入命令行模式安装驱动。
  2. 安装 Docker CE

    若未安装 Docker,需离线部署:

    • 下载 Docker 静态二进制包(如 docker-20.10.9.tgz)。

    • 解压并复制到 /usr/bin/

      bash 复制代码
      tar xzvf docker-20.10.9.tgz
      sudo cp docker/* /usr/bin/
    • 配置 systemd 服务并启动(详见)。


📦 二、获取离线 RPM 包

在联网机器下载所需组件(需与 CentOS 7 架构一致):

bash 复制代码
sudo yum install -y --downloadonly --downloaddir=/path/to/download \
    nvidia-container-toolkit \
    nvidia-container-runtime \
    libnvidia-container1 \
    libnvidia-container-tools \
    nvidia-docker2

关键组件清单

包名 作用 来源
libnvidia-container* 容器底层库支持
nvidia-container-runtime 容器运行时接口
nvidia-container-toolkit 核心工具包
nvidia-docker2 Docker 集成配置

💡 注:将所有 RPM 包传输到目标服务器的离线环境(如 /opt/nvidia-rpms/)。


🔧 三、安装步骤

  1. 批量安装 RPM 包

    进入存放目录执行:

    bash 复制代码
    cd /opt/nvidia-rpms
    sudo rpm -Uvh *.rpm --nodeps --force  # 忽略依赖强制安装

    ⚠️ 若遇依赖错误,需手动补充缺失包(如 dkms)。

  2. 配置 Docker 使用 NVIDIA Runtime

    生成默认配置并重启服务:

    bash 复制代码
    sudo nvidia-ctk runtime configure --runtime=docker  # 生成 /etc/docker/daemon.json
    sudo systemctl restart docker

    确认 /etc/docker/daemon.json 包含:

    json 复制代码
    {
      "runtimes": {
        "nvidia": {
          "path": "nvidia-container-runtime",
          "runtimeArgs": []
        }
      },
      "default-runtime": "nvidia"
    }

🧪 四、验证安装

  1. 检查工具包版本

    bash 复制代码
    nvidia-ctk --version  # 应输出类似 1.14.1
  2. 运行测试容器

    bash 复制代码
    docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

    成功则显示与宿主机一致的 GPU 信息。


⚠️ 关键注意事项

  1. 依赖冲突处理

    若强制安装(--nodeps)后 Docker 启动失败,检查日志 journalctl -u docker,常见问题为内核版本不匹配或缺失 libcuda.so

  2. 离线环境限制

    • CUDA 镜像需提前在联网环境下载(如 nvidia/cuda:11.0-base)。
    • 避免升级内核,否则需重新编译驱动。
  3. GPU 资源隔离

    多容器共享 GPU 时,可通过 docker run --gpus '"device=0"' 指定设备。


💎 额外建议

  • CUDA 版本兼容性 :确保容器内 CUDA 版本 ≤ 宿主机驱动支持的版本(通过 nvidia-smi 顶部显示信息比对)。
  • 替代方案 :若环境允许,优先通过代理设置在线安装(修改 /etc/yum.conf 添加 proxy=http://x.x.x.x:port)。

遇到问题可参考 NVIDIA 官方文档:Container Toolkit 离线指南

相关推荐
此生只爱蛋21 小时前
【Linux】正/反向代理
linux·运维·服务器
qq_54702617921 小时前
Linux 基础
linux·运维·arm开发
zfj32121 小时前
sshd除了远程shell外还有哪些功能
linux·ssh·sftp·shell
废春啊21 小时前
前端工程化
运维·服务器·前端
我只会发热21 小时前
Ubuntu 20.04.6 根目录扩容(图文详解)
linux·运维·ubuntu
爱潜水的小L1 天前
自学嵌入式day34,ipc进程间通信
linux·运维·服务器
保持低旋律节奏1 天前
linux——进程状态
android·linux·php
zhuzewennamoamtf1 天前
Linux I2C设备驱动
linux·运维·服务器
zhixingheyi_tian1 天前
Linux 之 memory 碎片
linux
邂逅星河浪漫1 天前
【域名解析+反向代理】配置与实现(步骤)-SwitchHosts-Nginx
linux·nginx·反向代理·域名解析·switchhosts