【k8s集群Docker + cri-dockerd】服务器重启或关机后 apiserver/controller/scheduler 无法自动恢复

说明:

一、我在使用 Kubernetes 集群时遇到一个启动依赖问题,具体表现如下:

1)服务器重启后,控制平面组件(kube-apiserver、kube-controller-manager、kube-scheduler)无法自动恢复,导致整个集群不可用。

2)底层容器运行时使用的是 Docker,并通过 cri-dockerd 作为 CRI 接口桥接 kubelet 与 Docker,三者存在明确的依赖关系:

kubelet ------> cri-dockerd ------> docker。

3)目前我通过配置 systemd 依赖(如 After=cri-dockerd.service)和环境变量,已实现"服务器重启"后集群自动恢复。

4)但 在"关机后再开机"的场景下,这些控制平面 Pod 依然无法自动拉起,必须手动执行以下命令才能恢复集群:

二、请问大家是如何彻底解决这个问题的?

1)是否有一种方案,能让 Kubernetes 控制平面在 无论是重启还是关机再开机 的情况下,都能自动、可靠地恢复,且上层业务应用可正常访问?

如果您的环境中已经稳定解决了该问题,欢迎在评论区分享您的配置或思路,非常感谢各位大牛

2)问题如下图所示:


解决办法:

powershell 复制代码
1、master、worker都要更改kubelet服务
vi /usr/lib/systemd/system/kubelet.service
# 将以下选项注释,
#Wants=network-online.target
#After=network-online.target

# 添加上以下选项
Wants=cri-dockerd.service
After=cri-dockerd.service

最终结果如下图所示
root@master01:~# cat /usr/lib/systemd/system/kubelet.service
[Unit]
Description=kubelet: The Kubernetes Node Agent
Documentation=https://kubernetes.io/docs/
#Wants=network-online.target
#After=network-online.target
Wants=cri-dockerd.service
After=cri-dockerd.service

[Service]
ExecStart=/usr/bin/kubelet
Restart=always
StartLimitInterval=0
RestartSec=10

[Install]
WantedBy=multi-user.target

# 重启服务
systemctl daemon-reload
systemctl restart kubelet

说明:
1)这个方法只能解决服务器重启后,k8s集群自动恢复正常
2)如果是关闭服务器,再开机启动服务器,k8s集群服务只能手动执行命令恢复

2、执行命令恢复k8s集群(master、worker都要执行)
# 重启服务
systemctl restart docker cri-docker kubelet

# 查看状态
systemctl status docker cri-docker kubelet --no-pager -l

# 验证k8s集群
netstat -tnlpu
kubectl get po -A


相关推荐
CodeGolang5 分钟前
Docker容器化部署Zabbix监控系统完整指南
docker·容器·zabbix
石去皿5 分钟前
【嵌入式就业10】Linux内核深度解析:从启动流程到驱动框架的工业级实践
linux·运维·服务器
954L6 分钟前
CentOs7执行yum update出现链接404问题
linux·centos·yum·vault
Wpa.wk8 分钟前
接口自动化 - 多环境统一文件配置 +多响应统一转换处理
运维·服务器·测试工具·自动化·接口自动化·统一配置
Trouvaille ~9 分钟前
【Linux】应用层协议设计实战(二):Jsoncpp序列化与完整实现
linux·运维·服务器·网络·c++·json·应用层
是枚小菜鸡儿吖19 分钟前
从 0 到 1 生成自定义算子:CANN + AIGC 的自动化工作流
运维·自动化·aigc
EmbedLinX22 分钟前
嵌入式之协议解析
linux·网络·c++·笔记·学习
考琪23 分钟前
Nginx打印变量到log方法
java·运维·nginx
vortex524 分钟前
解密UUOC:Shell编程中“无用的cat使用”详解
linux·shell编程
tritone33 分钟前
使用阿贝云免费云服务器学习Vagrant,是一次非常顺畅的体验。作为一名开发者
服务器·学习·vagrant