摘要 :本文详细记录了在最新的 NVIDIA DGX Spark 服务器(搭载 Grace Blackwell GB10 芯片,ARM64 架构)上从零部署 Kubernetes 集群、Cilium 网络插件及 NVIDIA GPU Operator 的全过程。文档重点解决了国产化网络环境下的镜像拉取问题、DGX OS 的驱动兼容性问题以及 ARM64 架构下的 CDI 配置难题。
一、 环境背景与挑战
在顶级 AI 算力平台 DGX Spark 上部署 K8s 与普通 x86 服务器有显著不同,主要面临以下挑战:
- 架构特殊:基于 ARM64 架构,需确保所有组件镜像支持该架构。
- 硬件超前:Grace Blackwell (GB10) 需要较新的 Container Device Interface (CDI) 支持。
- 系统限制:DGX OS (Ubuntu 定制版) 预装了特定版本的 NVIDIA 驱动,K8s 不能覆盖安装。
- 网络环境 :国内无法访问
registry.k8s.io、quay.io和nvcr.io,必须配置镜像加速。
1.1 硬件与软件信息
- 硬件型号:NVIDIA DGX Spark
- CPU 架构:aarch64 (ARM64)
- GPU 型号:NVIDIA GB10 (Grace Blackwell)
- 操作系统:Ubuntu 24.04 LTS (DGX OS)
- 内核版本:6.14.0-1015-nvidia
- Kubernetes 版本:v1.31.x
二、 系统前置准备 (System Preparation)
在执行 kubeadm init 之前,必须对 OS 进行基础配置。
2.1 关闭 Swap 与 配置内核模块
bash
# 1. 临时关闭 Swap
sudo swapoff -a
# 注意:生产环境请注释掉 /etc/fstab 中的 swap 行以永久生效
# 2. 加载必要的内核模块
cat <<EOF | sudo tee /etc/modules-load.d/k8s.conf
overlay
br_netfilter
EOF
sudo modprobe overlay
sudo modprobe br_netfilter
# 3. 配置系统参数 (开启 IP 转发)
cat <<EOF | sudo tee /etc/sysctl.d/k8s.conf
net.bridge.bridge-nf-call-iptables = 1
net.bridge.bridge-nf-call-ip6tables = 1
net.ipv4.ip_forward = 1
EOF
sudo sysctl --system
2.2 配置 Containerd (关键步骤)
DGX 环境下,必须正确配置 containerd 的 Cgroup 驱动,并配置沙箱镜像以适应国内网络。
bash
# 1. 生成默认配置
sudo mkdir -p /etc/containerd
containerd config default | sudo tee /etc/containerd/config.toml
# 2. 开启 SystemdCgroup (K8s 必需)
sudo sed -i 's/SystemdCgroup = false/SystemdCgroup = true/g' /etc/containerd/config.toml
# 3. 修改 Sandbox 镜像为国内源 (DaoCloud 加速)
sudo sed -i 's|registry.k8s.io/pause:3.8|m.daocloud.io/registry.k8s.io/pause:3.8|g' /etc/containerd/config.toml
# 4. 重启服务
sudo systemctl restart containerd
三、 Kubernetes 集群初始化
3.1 初始化 Control Plane
bash
# 指定 Pod 网段 (需与后续 Cilium 配置一致)
sudo kubeadm init --pod-network-cidr=10.0.0.0/8 --kubernetes-version=v1.31.14 \
--image-repository registry.aliyuncs.com/google_containers
3.2 配置 Kubectl
bash
mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config
3.3 解除 Master 节点污点
由于 DGX 通常作为单机集群使用,需要允许 Pod 调度到 Master 节点:
bash
kubectl taint nodes --all node-role.kubernetes.io/control-plane-
四、 部署 Cilium 网络插件 (国内加速版)
由于 cilium-cli 下载困难且 quay.io 镜像拉取慢,这里采用 Helm + 国内镜像源的方式部署。
4.1 安装 Helm
bash
curl https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 | bash
4.2 安装 Cilium
使用 m.daocloud.io 代理加速镜像拉取:
bash
# 添加仓库
helm repo add cilium https://helm.cilium.io/
helm repo update
# 安装 (指定镜像源)
helm install cilium cilium/cilium --version 1.16.1 \
--namespace kube-system \
--set ipam.mode=cluster-pool \
--set ipam.operator.clusterPoolIPv4PodCIDRList="10.0.0.0/8" \
--set kubeProxyReplacement=true \
--set operator.replicas=1 \
--set image.repository="m.daocloud.io/quay.io/cilium/cilium" \
--set image.useDigest=false \
--set operator.image.repository="m.daocloud.io/quay.io/cilium/operator" \
--set operator.image.useDigest=false
4.3 🚑 故障排查:解决 "Node NotReady"
现象 :Cilium Pod 已 Running,但 kubectl get nodes 显示 NotReady,报错 cni plugin not initialized。
原因 :Kubelet 启动时 CNI 配置尚未生成,生成后 Kubelet 未自动感知。
解决方案:
bash
# 组合拳重启:强制 Containerd 加载 CNI 配置,并重启 Kubelet 汇报状态
sudo systemctl restart containerd
sudo systemctl restart kubelet
执行后稍等片刻,节点状态应变为 Ready。
五、 部署 NVIDIA GPU Operator (核心难点)
这是最关键的一步。DGX OS 不能重装驱动,且 ARM64 架构需要开启 CDI。
5.1 清理旧环境 (防止冲突)
如果之前尝试安装失败,必须彻底清理全局资源,否则会报 invalid ownership metadata。
bash
# 1. 删除命名空间
kubectl delete namespace gpu-operator --wait=false
# 2. 清理 ClusterRole 和 Binding (这些是全局资源,delete ns 删不掉)
kubectl delete clusterrole gpu-operator
kubectl delete clusterrolebinding gpu-operator
kubectl delete clusterrole node-feature-discovery
kubectl delete clusterrolebinding node-feature-discovery
kubectl delete crd clusterpolicies.nvidia.com
5.2 使用优化后的 Helm 命令安装
配置详解:
driver.enabled=false: 关键,直接使用宿主机预装的 DGX 驱动。cdi.enabled=true: 关键,Blackwell/ARM64 架构必需,使用 CDI 机制挂载设备。toolkit.env: 修正 Containerd 配置文件路径。node-feature-discovery.image: 替换为国内加速镜像。
bash
# 添加仓库
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia
helm repo update
# 部署
helm install --wait --generate-name \
-n gpu-operator --create-namespace \
nvidia/gpu-operator \
--set driver.enabled=false \
--set toolkit.enabled=true \
--set cdi.enabled=true \
--set cdi.default=true \
--set mig.strategy=single \
--set toolkit.env[0].name=CONTAINERD_CONFIG \
--set toolkit.env[0].value=/etc/containerd/config.toml \
--set toolkit.env[1].name=CONTAINERD_SOCKET \
--set toolkit.env[1].value=/run/containerd/containerd.sock \
--set node-feature-discovery.image.repository=m.daocloud.io/registry.k8s.io/nfd/node-feature-discovery
5.3 验证 Operator 状态
bash
watch kubectl get pods -n gpu-operator
当看到 nvidia-device-plugin-daemonset 状态为 Running 时,说明显卡挂载成功。
六、 算力验证 (Verification)
由于 nvcr.io 的 sample 镜像在国内极难拉取,我们使用 Docker Hub 的官方基础镜像进行验证。
6.1 创建测试 YAML
新建文件 gpu-test.yaml:
yaml
apiVersion: v1
kind: Pod
metadata:
name: gpu-test-simple
spec:
restartPolicy: Never
containers:
- name: cuda-container
# 使用 Docker Hub 官方镜像 + DaoCloud 加速
image: m.daocloud.io/docker.io/nvidia/cuda:12.4.1-base-ubuntu22.04
resources:
limits:
nvidia.com/gpu: 1
command: ["/bin/sh", "-c"]
# 运行 nvidia-smi 查看显卡信息
args: ["nvidia-smi"]
6.2 运行测试
bash
kubectl apply -f gpu-test.yaml
sleep 15
kubectl logs gpu-test-simple
6.3 成功标志
输出结果中应包含 NVIDIA GB10 显卡信息:
text
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.95.05 Driver Version: 580.95.05 CUDA Version: 13.0 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
|=========================================+========================+======================|
| 0 NVIDIA GB10 On | 0000000F:01:00.0 Off | N/A |
+-----------------------------------------+------------------------+----------------------+
七、 总结与避坑指南
- 关于网络 :不要尝试直连
registry.k8s.io或nvcr.io,即使是加速器有时也不稳定。使用m.daocloud.io前缀配合 Docker Hub 基础镜像最稳妥。 - 关于 DGX 驱动 :永远不要在 GPU Operator 中开启
driver.enabled=true,否则会覆盖 DGX OS 的优化驱动,导致系统不稳定。 - 关于残留清理 :Helm uninstall 往往删不干净 ClusterRole,重新安装前务必手动
kubectl delete clusterrole ...。 - 关于 ARM64 :务必确认所有组件(特别是 Cilium 和 NFD)的镜像都支持
arm64架构。
希望这篇文档能帮助大家在国产化网络环境下顺利驯服 DGX "怪兽"。