Kubernetes 节点安全维护全流程:从驱逐 Pod 到彻底清理残留

前言

在 Kubernetes 集群运维中,经常需要对单个节点进行维护,比如升级内核、重装 NVIDIA 驱动、扩容磁盘甚至重装系统。这时最核心的需求是:安全地将节点隔离出来,确保不影响集群其他部分,同时彻底清理本地残留,避免容器和 Pod 反复重建

下面分享一套经过实战验证的完整流程,适用于大多数基于 kubeadm 或类似方式部署的集群(版本 v1.20+ 均适用)。

1. 标记节点不可调度

防止新 Pod 被调度到目标节点。

bash 复制代码
kubectl cordon <node-name>

节点状态变为 Ready,SchedulingDisabled

2. 删除节点上所有 Pod(包括 DaemonSet)

bash 复制代码
kubectl delete pod --all-namespaces --field-selector spec.nodeName=<node-name> --grace-period=0 --force

这一步会强制删除所有 Pod,包括 DaemonSet 管理的系统组件(如 calico-node、kube-proxy 等)。

3. 让节点进入 NotReady 状态(关键步骤)

这是阻止 DaemonSet Pod 重建的核心。

在目标节点上执行:

bash 复制代码
sudo systemctl stop kubelet
sudo pkill -9 -f kubelet    # 确保进程彻底结束

几秒到一分钟后,节点状态变为 NotReady,SchedulingDisabled

此时即使 DaemonSet 控制器尝试创建新 Pod,也只会卡在 Pending 状态,不会真正启动容器。

4. 清理本地运行的容器

kubelet 停止前可能已拉起部分容器,需要手动清理。

bash 复制代码
sudo docker rm -f $(sudo docker ps -aq)   # Docker 环境
# 或 containerd 环境
sudo crictl rm -f $(sudo crictl ps -q)

5. 清理镜像和运行时残留

bash 复制代码
sudo docker rmi -f $(sudo docker images -q)
sudo docker system prune -a --volumes -f

6. 清理 Kubernetes 残留文件和挂载

常会遇到 Device or resource busy 错误,因为 secret/configmap 等卷以 tmpfs 方式挂载。

bash 复制代码
# 先卸载所有 kubelet 相关 tmpfs
sudo mount | grep kubelet | awk '{print $3}' | xargs -r sudo umount

# 再删除残留目录
sudo rm -rf /var/lib/kubelet/* /var/log/pods/* /var/log/containers/*

# 重建必要空目录
sudo mkdir -p /var/lib/kubelet /var/log/pods /var/log/containers

7. 可选:进一步释放磁盘空间

  • 清理 snap 旧版本(Ubuntu 常见):

    bash 复制代码
    sudo snap list --all | awk '/disabled/{print $1, $3}' | while read n r; do sudo snap remove "$n" --revision="$r" --purge; done
  • 清理系统日志:

    bash 复制代码
    sudo journalctl --vacuum-size=500M

8. 维护完成后恢复节点

在目标节点上:

bash 复制代码
sudo systemctl start kubelet

等待节点恢复 Ready 状态后,在控制平面执行:

bash 复制代码
kubectl uncordon <node-name>

所有 DaemonSet Pod 会自动重建,节点恢复正常运行。

常见问题与解决方案

  • Pod 或容器反复重建 → 节点仍为 Ready 状态 → 必须停止 kubelet 让节点 NotReady
  • 删除 /var/lib/kubelet 时提示 busy → 未卸载 tmpfs 挂载 → 先 umount 再删除
  • docker stop 无效 → kubelet 仍在拉起容器 → 彻底杀死 kubelet 进程

总结

这套流程的核心思想是:

  1. cordon 阻止调度
  2. 强制删除 Pod
  3. 停止 kubelet 让节点 NotReady(阻止重建)
  4. 彻底清理本地残留

执行完后,节点完全隔离且干净,可安全进行任何破坏性操作。恢复时仅需启动 kubelet 并 uncordon 即可自动愈合。

相关推荐
江畔何人初5 分钟前
kube-apiserver、kube-proxy、Calico 关系
运维·服务器·网络·云原生·kubernetes
daidaidaiyu1 小时前
Spring IOC 源码学习 事务相关的 BeanDefinition 解析过程 (XML)
java·spring
wal13145202 小时前
Dify发布V1.13.1版本,Hologres 向量数据库支持、HITL 邮件 Markdown 渲染及多项安全加固
数据库·安全·dify
鬼蛟2 小时前
Spring————事务
android·java·spring
陈天伟教授2 小时前
人工智能应用- 预测新冠病毒传染性:04. 中国:强力措施遏制疫情
前端·人工智能·安全·xss·csrf
西门吹-禅2 小时前
【sap fiori cds up error】
java·服务器·sap cap cds
敲代码的嘎仔3 小时前
Java后端面试——SSM框架面试题
java·面试·职场和发展·mybatis·ssm·springboot·八股
大傻^3 小时前
Spring AI Alibaba RAG实战:基于向量存储的检索增强生成
java·人工智能·spring
大傻^3 小时前
Spring AI Alibaba 快速入门:基于通义千问的AI应用开发环境搭建
java·人工智能·后端·spring·springai·springaialibaba
jxkejiiii3 小时前
巧用手机原生功能,零成本给重要文档加密防护
安全·智能手机