14、排查集群中的故障节点
您必须在以下Cluster/Node上完成此考题:
Cluster Master node Worker node
wk8s master node01
设置配置环境:
[candidate@node01]$ kubectl config use-context wk8s
Context
集群节点状态修复
Task
名为 node02 的 Kubernetes worker node 处于 NotReady 状态。调查发生这种情况的原因,并
采取相应的措施将 node 恢复为 Ready 状态,确 保所做的任何更改永久生效。可以使用以下命令, 通过 ssh 连接到 node02 节点:
ssh node02
可以使用以下命令,在该节点上获取更高权限:
sudo -i
开始操作:
bash
# 考试时有多套集群环境,以免答题环境相互干扰。
# 所以考试时务必按照题目要求先切换到所对应的集群环境,才是正确答题的前提,非常重要
# 请务必确认现在所处节点为node01,否则无法切换集群而报错
kubectl config use-context wk8s
#查看节点状态
kubectl get nodes
CKA模拟环境操作截图,node02确实为NotReady状态:
登录故障节点,检查故障原因
bash
#登录故障节点
ssh node02
#进行提权
sudo -i
#查看kubelet工作状态
systemctl status kubelet
CKA模拟环境操作截图,kubelet为dead状态:
修复kubelet进程状态
bash
#启动并设置开机启动
systemctl enable kubelet --now
#查看kubelet工作状态
systemctl status kubelet
CKA模拟环境操作截图,kubelet为running状态,已经成功修复:
然后退回到node01节点,再次检查节点状态
bash
#退出提权状态
exit
#退出node02登录
exit
#在node01执行如下命令,查看各节点状态
kubectl get nodes
CKA模拟环境操作截图,node02状态为Ready,已经成功修复:
CKA仿真模拟环境简短视频演示: