在K8S中，节点故障驱逐pod过程时间怎么定义？

Garbo_Huang2024-02-01 1:00

在Kubernetes中，节点故障驱逐Pod的过程涉及多个参数和组件的相互作用。以下是该过程的简要概述：

默认设置：在默认配置下，节点故障时，工作负载的调度周期约为6分钟。
关键参数 ：
- node-monitor-period：节点控制器（node controller）检查每个节点的间隔，默认值为5秒。
- node-monitor-grace-period：节点控制器判断节点故障的时间窗口，默认值为40秒。即如果40秒内没有收到节点消息，则判断节点为故障。
- pod-eviction-timeout：当节点故障时，kubelet允许pod在此故障节点的保留时间，默认值为300秒。这意味着当节点故障5分钟后，kubelet开始在其他可用节点重建pod。
调整参数 ：在实际操作中，这些参数可以根据需要进行调整。例如，通过修改kube-controller-manager的配置文件来调整node-monitor-period和pod-eviction-timeout等参数。
驱逐时间 ：当一个节点被标记为故障后，kubelet会尝试在pod-eviction-timeout设定的时间内将该节点上的pod驱逐。如果超过这个时间，kubelet将开始在其他可用节点上重建这些pod。
状态变化 ：在这个过程中，pod的状态不会立即改变。在默认的pod-eviction-timeout时间内，原本是Running的pod状态将保持不变。当超过这个时长后，这些pod的状态会变为Nodelost（对于DaemonSet）或Unknown（对于Deployment）。

综上所述，Kubernetes通过多个参数和组件的协同工作，实现了对节点故障时Pod的驱逐过程。这些参数可以通过配置进行优化，以满足特定需求和环境的要求。