cka-2026-etcd

w6100104662026-04-12 15:03

Task

修复在机器迁移过程中损坏的单节点集群。

首先，确定损坏的集群组件，并调查导致其损坏的原因。注意：已停用的集群使用外部 etcd 服务器。

接下来，修复所有损坏的集群组件的配置。

注意：确保重新启动所有必要的服务和组件，以使更改生效。否则可能导致分数降低。

最后，确保集群运行正常。确保：

每个节点和所有 Pod 都处于 Ready 状态。

步骤1.修复 etcd

编辑 kube-apiserver 的静态 Pod 清单文件,修正 --etcd-servers 参数。

vim /etc/kubernetes/manifests/kube-apiserver.yaml

找到 --etcd-servers 参数,确保其指向本地 etcd 服务器地址

步骤2.修改完成后,必须要重启一下kubelet 服务

systemctl daemon-reload

systemctl restart kubelet

此时虽然 node Ready 了,但是kube-scheduler-master01 还是有异常的,需要继续操作。

kubectl get nodes

kubectl -n kube-system get pod

步骤3. 修复 kube-scheduler-master01

vim /etc/kubernetes/manifests/kube-scheduler.yaml

将改 requests cpu 成 100m(其实只要低于这个 node 的 request cpu 的剩余量,都是可以的,跟 resources cpu 和 memory 类似)

cpu: 100m

步骤4.验证集群状态

kubectl get nodes

kubectl -n kube-system get pod