k8s集群异常恢复

前提、我自己的k8s采用的是单master节点+两个从节点部署,我针对单master情况进行恢复说明

场景一:正常开关虚拟机,可直接重启kubelet进行恢复

1、1、一般重启后三个节点都需要检查,输入命令检查kubelet:

复制代码
systemctl status kubelet

2、状态不正常,输入命令启动kubelet:

复制代码
systemctl restart kubelet

3、正常情况下,启动kubelet后,节点一般都会正常,除非etcd异常

4、输入查看命令:kubectl get pod -A,如果不能正常回显则说明异常

5、再次尝试手动恢复(虚拟机正常开关机情况下,重启能解决95以上的异常问题,如果不能正常,再重启一次),重启kubelet,输入命令:

复制代码
systemctl restart kubelet

场景二:一般服务器直接断电或者异常,都很大机率造成etcd异常。所以一般都需要提前对etcd文件备份才行,备份命令

复制代码
mkdir -p  /root/etcd/backup
#不知道路径可以查找etcd数据目录
find / -type d -name member
cd /root/etcd/backup
rm -rf *
echo "备份etcd"
cp -R -c /var/lib/etcd/member/* ./

恢复命令:

复制代码
cd /var/lib/etcd/member
rm -rf *
cp -R -c /root/etcd/backup/* ./
systemctl restart kubelet
systemctl status kubelet
#查看pod状态,等待几分钟
kubectl get pod -A

后续:定位etcd异常方法

可以用命令

复制代码
netstat -anp | grep 2379

如果有回显该端口提供了服务,则说明正常

另外的方法就是查看kube-apiserver服务的docker日志,查看命令:

复制代码
docker ps -a | grep kube-apiserver

命令执行后再查看其日志:

复制代码
docker logs --tail 500 -f 容器id

如果回显存在2379端口连接不上,则说明etcd出问题了

相关推荐
猫豆~4 小时前
软件包管理——2day
linux·运维
大白菜13247 小时前
进程的信号
linux
XH-hui7 小时前
【打靶日记】群内靶机Secure
linux·网络安全
Shingmc37 小时前
【Linux】进程控制
linux·服务器·算法
视觉装置在笑7137 小时前
Shell 变量基础与进阶知识
linux·运维
Web极客码8 小时前
如何通过命令行工具检查 Linux 版本信息
linux·运维·服务器
Lynnxiaowen8 小时前
今天我们继续学习Kubernetes内容pod资源对象
运维·学习·容器·kubernetes·云计算
欢鸽儿8 小时前
Vitis】Linux 下彻底清除启动界面 Recent Workspaces 历史路径
linux·嵌入式硬件·fpga
繁华似锦respect8 小时前
C++ 智能指针底层实现深度解析
linux·开发语言·c++·设计模式·代理模式
hweiyu009 小时前
Linux 命令:dd
linux