一次 nerdctl prune -a 导致 Kubernetes 节点不可用的复盘

背景

Kubernetes 节点磁盘快满了(90%+),

第一反应非常自然:清理无用容器和镜像

节点使用的是 containerd,于是直接执行:

js 复制代码
nerdctl prune -a

磁盘立刻释放,看起来一切正常。

几分钟后,Pod 开始起不来了。

问题现象

kubelet 持续报错,所有新 Pod 卡在 ContainerCreating:

js 复制代码
Warning  FailedCreatePodSandBox
Failed to create pod sandbox:
failed to get sandbox image "localhost/kubernetes/pause"
failed to pull image "localhost/kubernetes/pause:latest"
dial tcp 127.0.0.1:443: connect: connection refused

表现:

  • 节点 NotReady
  • Pod 无法创建
  • 老 Pod 不受影响,新 Pod 全挂

紧急恢复操作

执行以下操作后集群恢复:

js 复制代码
sudo sed -i 's|sandbox_image = .*|sandbox_image = "registry.k8s.io/pause:3.9"|' \
  /etc/containerd/config.toml
sudo systemctl restart containerd
sudo systemctl restart kubelet

Pod 能正常创建,但问题本身并没有真正解释清楚。

根因分析

Kubernetes 强依赖 pause 镜像

在 containerd + kubelet 架构中:

  • 每个 Pod 都需要一个 sandbox
  • sandbox 本质是一个 pause 容器
  • 镜像由 containerd 的 CRI 插件管理

containerd 默认配置:

js 复制代码
sandbox_image = "registry.k8s.io/pause:3.9"

nerdctl prune -a 干了什么?

js 复制代码
nerdctl prune -a

实际含义是:

删除所有未被"当前运行容器"使用的资源*

而问题在于:

  • pause 镜像 不是运行容器
  • 但 kubelet 随时需要

结果就是:

Kubernetes 的基础镜像被当成"无用资源"删掉了

为什么会拉 localhost/kubernetes/pause ?

当 sandbox 镜像不存在时:

  • containerd 会尝试 fallback 地址
  • 节点没有本地 registry
  • 最终请求 https://localhost/v2/... 直接失败

这个错误非常迷惑,但根因还是 pause 镜像被删

生产环境安全清理建议

只清理停止容器(推荐)

js 复制代码
nerdctl container prune

只清理悬空镜像

js 复制代码
nerdctl image prune

带时间窗口清理镜像

js 复制代码
nerdctl image prune --all --filter until=240h

磁盘满的"真正大头":日志

这一步经常能直接释放大量空间

js 复制代码
find /var/log/containers -type f -name "*.log" -size +100M -exec truncate -s 0 {} \;
find /var/log/pods -type f -name "*.log" -size +100M -exec truncate -s 0 {} \;
相关推荐
oMcLin1 天前
如何在 Ubuntu 22.10 上通过 Kubernetes 和 Helm 管理微服务应用,简化跨平台电商平台的自动化部署?
ubuntu·微服务·kubernetes
原神启动12 天前
K8S(九)—— Kubernetes 集群调度全面解析
云原生·容器·kubernetes
db_cy_20622 天前
Docker+Kubernetes企业级容器化部署解决方案(阶段一)
docker·容器·kubernetes·云计算·负载均衡·运维开发
Y.O.U..2 天前
Kurbenetes-Service(1)
容器·kubernetes
ICT董老师2 天前
kubernetes中operator与helm有什么区别?部署mysql集群是选择operator部署还是helm chart部署?
linux·运维·mysql·云原生·容器·kubernetes
L1624762 天前
Prometheus 监控 K8s 集群全指南(适配 K8s 特性 + 实操部署)
docker·容器·kubernetes
王旭晨2 天前
【高并发架构】从 0 到亿,从单机部署到 K8s 编排:高并发架构的 8 级演进之路
容器·架构·kubernetes
阿方索2 天前
Kubernetes 1.28 高可用集群安装指南(Docker 运行时)
docker·容器·kubernetes
独自归家的兔2 天前
解决k8s UI界面进不去
云原生·容器·kubernetes
孤岛悬城2 天前
59 k8s集群调度
云原生·kubernetes