Kubernetes节点维护实战及注意事项

在 Kubernetes 集群中，节点（Node）是运行 Pod 的基础单元。节点维护是保证集群稳定性和高可用性的关键操作。

本文直接给你一套 可落地、实战验证过 的节点维护方案。

确认节点健康

复制代码

kubectl get nodes

节点状态应为 Ready，否则维护可能会带来风险。

清楚节点上的 Pod

复制代码

kubectl get pods -A -o wide | grep <NODE_NAME>

kubectl get pods -A -o wide | grep k8s-node2

重点了解哪些是关键业务 Pod，哪些可以安全迁移，如果有Pod使用了Local PV，要慎重。

挑选维护时间 尽量选择业务低峰期进行维护，避免影响用户体验。

维护前，先让腾空节点，不再接收新 Pod：

复制代码

kubectl cordon <NODE_NAME>

kubectl cordon k8s-node2

这样，新的 Pod 不会调度到这台节点上，已有的Pod不受影响，保证你维护时不会意外影响业务。

接下来，把节点上的 Pod 安全迁移到其他节点：

复制代码

kubectl drain <NODE_NAME> --ignore-daemonsets --delete-emptydir-data

提示：关键业务 Pod 必须有副本，否则迁移可能导致服务中断。

可以看到daemonset类型的Pod没有被驱逐掉，如果使用了Local PV的Pod，要慎重！

驱逐完要查看一下业务是否正常再进行节点维护工作，这一点很重要。

drain 有可能卡住的常见原因：

这也是为什么很多团队 drain 一次，要等半小时。

节点"空"了，你就可以放心操作了：

维护完成后，让节点回到集群中：

复制代码

kubectl uncordon k8s-node2
kubectl get nodes
kubectl get pods -o wide

K8S 节点维护核心就 4 步：

cordon → drain → 维护 → uncordon