Kubernetes（k8s）集群健康检查常用的五种指标

使用 kubectl get nodes -o wide 命令获取所有节点的状态信息，包括节点名称、IP地址、角色等。

bash 复制代码

kubectl get nodes -o wide

使用 kubectl cluster-info 命令显示当前连接到的集群的相关信息，如API服务器地址、版本号等。

bash 复制代码

kubectl cluster-info

使用 kubectl get nodes 命令可以获取所有节点的健康状态

bash 复制代码

kubectl get nodes

使用 kubectl get pods --all-namespaces 命令查看集群中所有命名空间中Pod的状态

bash 复制代码

kubectl get pods --all-namespaces
#雷同
kubectl get pod -A

用于获取Kubernetes集群中各个组件的健康状态，如API服务器、控制器管理器、调度器等。

bash 复制代码

kubectl get componetstatuses

使用 kubectl top 命令来查看节点和Pod的资源使用情况。（需要安装集群指标监控组件metrics）

bash 复制代码

kubectl top node

使用 kubectl top pod --all-namespaces或者 kubectl top pod -A命令查看Pod详细资源使用情况。

bash 复制代码

kubectl top pod  -A

使用 kubectl describe node vts-b 命令可以获取特定节点的详细信息，包括资源使用情况、事件记录等。

bash 复制代码

kubectl describe node vts-b

使用 kubectl describe pod calico-node-tw42m -n kube-system命令查看Pod的详细信息，包括其事件历史、容器状态、资源使用情况等。

bash 复制代码

kubectl describe pod calico-node-tw42m -n kube-system

使用 kubectl get events --sort-by='.metadata.creationTimestamp' -n kube-system命令可以查看指定命名空间中的事件，按时间顺序排列。

bash 复制代码

kubectl get events --sort-by='.metadata.creationTimestamp' -n kube-system

kubectl get services

kubectl describe service kubernetes

使用上面两条命令来获取服务的详细信息，包括其类型（如ClusterIP、NodePort、LoadBalancer等）、IP地址、端口号以及与之关联的Pod信息。

bash 复制代码

kubectl get services

kubectl describe service kubernetes

使用 kubectl logs -f polardbx-hpfs-9scjk -n polardbx-operator-system命令可以查看Pod中容器的日志，这对于诊断Pod为什么崩溃非常有用。

bash 复制代码

kubectl logs -f polardbx-hpfs-9scjk -n polardbx-operator-system

bash 复制代码

kubectl get sc

kubectl get pv,pvc -A

使用上面两条命令来查看集群中所有的持久卷和持久卷声明。确保它们的状态是Bound，表示它们已经被正确地绑定到了Pod上。

这些健康检查指标可以通过Kubernetes提供的API、命令行工具（如kubectl）、监控系统（如Prometheus）等来获取和监控。通过对这些指标的持续监控和分析，可以及时发现和解决集群中的问题，确保集群的稳定性和高可用性。

当你觉得自己很难的时候，说明你在走上坡路，别急，美好正在马不停蹄地赶来的路上。