虚拟机中kubeadim部署的k8s集群,虚拟机关机了，重新开机后集群状态能否正常恢复的两种可能（详解）

文章目录

- [1. 正常情况（能恢复）](#1. 正常情况（能恢复）)
- [2. 异常情况（需要手动干预）](#2. 异常情况（需要手动干预）)
- - [2.1、Master 启动失败](#2.1、Master 启动失败)
  - [2.2、Node 节点 kubelet 失败](#2.2、Node 节点 kubelet 失败)
- [3. 和宕机时间关系](#3. 和宕机时间关系)
- - [3.1、短期宕机（几小时 ~ 几天）](#3.1、短期宕机（几小时 ~ 几天）)
  - [3.2、长期宕机（几周 ~ 几个月）](#3.2、长期宕机（几周 ~ 几个月）)
- [4. 建议做法（保证恢复能力）](#4. 建议做法（保证恢复能力）)
- 5、总结
- [6、K8s 宕机后自检/自愈脚本](#6、K8s 宕机后自检/自愈脚本)
- - [6.1、脚本示例 /usr/local/bin/k8s-self-heal.sh](#6.1、脚本示例 /usr/local/bin/k8s-self-heal.sh)
  - 6.2、使用方法
  - 6.3、功能总结

虚拟机中kubeadim部署的k8s集群，虚拟机关机多久，宕机多长时间，重新开机，能否恢复？等等问题。

上述问题分两种情况来看，跟虚拟机宕机时间长短关系不大，关键看关机前集群状态、etcd 数据、节点启动顺序。

1. 正常情况（能恢复）

1.1、场景

虚拟机（Master、Node）只是关机或宿主机重启，没有人为执行 kubeadm reset，也没损坏 etcd 数据。

1.2、过程分析

etcd 数据保存在 /var/lib/etcd/，关机不会丢失。

kubelet、kube-apiserver、controller-manager、scheduler、etcd 等组件以 systemd 服务或容器形式运行，重启后会随 Docker/containerd 自动拉起。

节点 kubelet 会自动向 apiserver 注册，Pod 也会按原状态恢复（除了部分临时容器、emptyDir 卷的数据会丢失）。

1.3、恢复情况

Master 节点正常启动 → 集群 API 可用。

Node 节点正常启动 → Pod 重新调度或继续运行。

⏱ 无论关机几分钟还是几天，只要 etcd 数据没损坏，就能恢复。

2. 异常情况（需要手动干预）

以下情况可能导致集群不能"自动恢复"：

2.1、Master 启动失败

原因：etcd 数据损坏、容器运行时未启动、证书过期（一般一年）。

解决：恢复 etcd 备份，或重新 kubeadm init 再加节点。

2.2、Node 节点 kubelet 失败

原因：容器运行时没起来、kubelet 配置错误。

解决：systemctl status kubelet -l 检查日志，手动修复。

多 Master 集群，部分 Master 挂掉

etcd 失去 quorum（多数派），整个集群 API 不可用。

必须恢复大多数 etcd 成员，集群才能运转。

3. 和宕机时间关系

3.1、短期宕机（几小时 ~ 几天）

一般完全可恢复，只是业务 Pod 会因为重启而中断。

3.2、长期宕机（几周 ~ 几个月）

证书过期风险（默认 1 年有效期，部分 bootstrap token 只有 24h）。

etcd 数据可能还在，但 kubeadm init 时生成的证书过期后，需要 kubeadm cert renew。

4. 建议做法（保证恢复能力）

etcd 备份

bash 复制代码

ETCDCTL_API=3 etcdctl snapshot save /backup/etcd-$(date +%F).db

定期检查证书

bash 复制代码

kubeadm cert check-expiration

提前续期：

bash 复制代码

kubeadm cert renew all

保证容器运行时开机自启

bash 复制代码

systemctl enable containerd
systemctl enable kubelet

5、总结

只要 etcd 数据还在、证书没过期，虚拟机关机再长时间也能恢复。

如果 etcd 损坏、证书过期，那就需要人工修复或重新初始化。

6、K8s 宕机后自检/自愈脚本

K8s 宕机后自检/自愈脚本，用于虚拟机重启或宕机恢复后，自动检测 Master 节点的关键组件（etcd、证书、kube-apiserver、RBAC），并在发现问题时给出修复建议或自动处理。

脚本适用于 kubeadm 部署的集群，运行在 Master 节点上。

6.1、脚本示例 /usr/local/bin/k8s-self-heal.sh

bash 复制代码

#!/bin/bash
# K8s 宕机后自检/自愈脚本
# 适用：kubeadm 部署的集群（Master 节点执行）

LOGFILE="/var/log/k8s-self-heal.log"
DATE=$(date "+%F %T")
echo -e "\n==== K8s 自检开始: $DATE ====\n" | tee -a $LOGFILE

# 检查服务状态函数
check_service() {
    local svc=$1
    systemctl is-active --quiet $svc
    if [ $? -ne 0 ]; then
        echo "[WARN] $svc 未运行，尝试拉起..." | tee -a $LOGFILE
        systemctl restart $svc
        sleep 5
        systemctl is-active --quiet $svc && \
            echo "[OK] $svc 已恢复" | tee -a $LOGFILE || \
            echo "[ERROR] $svc 无法恢复，请手动排查" | tee -a $LOGFILE
    else
        echo "[OK] $svc 正常运行" | tee -a $LOGFILE
    fi
}

# 1. 检查关键服务
for svc in containerd kubelet; do
    check_service $svc
done

# 2. 检查 etcd 健康
echo "[CHECK] 检查 etcd 健康..." | tee -a $LOGFILE
if command -v etcdctl >/dev/null 2>&1; then
    export ETCDCTL_API=3
    etcdctl --endpoints=https://127.0.0.1:2379 \
        --cacert=/etc/kubernetes/pki/etcd/ca.crt \
        --cert=/etc/kubernetes/pki/etcd/server.crt \
        --key=/etc/kubernetes/pki/etcd/server.key endpoint health 2>>$LOGFILE
    if [ $? -ne 0 ]; then
        echo "[ERROR] etcd 不健康，可能需要从快照恢复" | tee -a $LOGFILE
    else
        echo "[OK] etcd 正常" | tee -a $LOGFILE
    fi
else
    echo "[WARN] etcdctl 未安装，跳过 etcd 检查" | tee -a $LOGFILE
fi

# 3. 检查 kube-apiserver 健康
echo "[CHECK] 检查 kube-apiserver..." | tee -a $LOGFILE
if [ -f /etc/kubernetes/admin.conf ]; then
    export KUBECONFIG=/etc/kubernetes/admin.conf
    kubectl get --raw=/healthz &>/dev/null
    if [ $? -eq 0 ]; then
        echo "[OK] kube-apiserver 健康" | tee -a $LOGFILE
    else
        echo "[ERROR] kube-apiserver 无法访问，尝试重启 kubelet..." | tee -a $LOGFILE
        systemctl restart kubelet
    fi
else
    echo "[ERROR] admin.conf 缺失，可能需要重新 kubeadm init" | tee -a $LOGFILE
fi

# 4. 检查证书有效期
echo "[CHECK] 检查证书有效期..." | tee -a $LOGFILE
if command -v kubeadm >/dev/null 2>&1; then
    EXP=$(kubeadm cert check-expiration | grep "expire" | grep -v "CA" | grep -Eo "[0-9]+d" | sed 's/d//' | sort -n | head -1)
    if [ "$EXP" != "" ] && [ $EXP -lt 30 ]; then
        echo "[WARN] 证书不足 30 天即将过期，尝试自动续期..." | tee -a $LOGFILE
        kubeadm cert renew all && systemctl restart kubelet
    else
        echo "[OK] 证书有效期正常" | tee -a $LOGFILE
    fi
else
    echo "[WARN] kubeadm 未安装，跳过证书检查" | tee -a $LOGFILE
fi

# 5. 检查 RBAC (system:admin 权限)
echo "[CHECK] 检查 RBAC..." | tee -a $LOGFILE
kubectl auth can-i get pods --all-namespaces --as=system:admin &>/dev/null
if [ $? -eq 0 ]; then
    echo "[OK] RBAC 权限正常" | tee -a $LOGFILE
else
    echo "[ERROR] RBAC 异常，system:admin 无法操作集群" | tee -a $LOGFILE
fi

echo -e "\n==== K8s 自检结束: $(date "+%F %T") ====\n" | tee -a $LOGFILE

6.2、使用方法

保存脚本：

bash 复制代码

vim /usr/local/bin/k8s-self-heal.sh
chmod +x /usr/local/bin/k8s-self-heal.sh

开机自动执行：

bash 复制代码

cat >/etc/systemd/system/k8s-self-heal.service <<EOF
[Unit]
Description=K8s 自检/自愈服务
After=network-online.target

[Service]
Type=oneshot
ExecStart=/usr/local/bin/k8s-self-heal.sh
StandardOutput=journal
StandardError=journal

[Install]
WantedBy=multi-user.target
EOF

bash 复制代码

systemctl enable k8s-self-heal.service

手动运行也可以：

bash 复制代码

/usr/local/bin/k8s-self-heal.sh

6.3、功能总结

自动检测并恢复：containerd、kubelet
检查 etcd 健康
检查 kube-apiserver 状态
检查并自动续期证书
检查 RBAC 权限
运行日志存放在 /var/log/k8s-self-heal.log

"人的一生会经历很多痛苦，但回头想想，都是传奇"。