k8s驱逐节点和加入节点
背景:随着业务系统的扩展或gpu节点的加入,k8s集群的节点驱逐和加入变得频繁了起来。
一、节点驱逐
在原集群Master上驱逐node-1节点:
bash
将节点标记为 不可调度
kubectl cordon node-1
驱逐节点上的所有 Pod:
kubectl drain node-1 --ignore-daemonsets --delete-emptydir-data
丛集群中删除node-1:
kubectl delete node node-1
然后在node-1上执行重置:
bash
kubeadm reset -f
rm -rf /etc/cni/net.d $HOME/.kube/config
rm -rf /etc/kubernetes/
rm -rf /var/lib/kubelet/
rm -rf /var/lib/etcd/
rm -rf /etc/cni/
rm -rf $HOME/.kube/
ip link delete cni0 2>/dev/null
ip link delete flannel.1 2>/dev/null
iptables -F && iptables -t nat -F && iptables -t mangle -F
systemctl restart docker
二、节点加入
节点node-2加入到目标集群master
在目标集群的master节点执行命令获取加入命令:
bash
[root@master ~]# kubeadm token create --print-join-command
kubeadm join lb.kubesphere.local:6443 --token oizgzi.lsddi1egd6zf05dl --discovery-token-ca-cert-hash sha256:099b3778b50d2ac60c40f8ae03a699b125f6ad972523a5248e16bce4e8209c5b
在要加入的节点上执行上面输出的加入命令:
bash
[root@node-2 ~]#kubeadm join lb.kubesphere.local:6443 --token oizgzi.lsddi1egd6zf05dl --discovery-token-ca-cert-hash sha256:099b3778b50d2ac60c40f8ae03a699b125f6ad972523a5248e16bce4e8209c5b
三、问题解决
1、如果node-2也是从其他k8s集群摘下来的,加入到新集群可能会出现node的name还是保持老集群的nodename,执行以下命令,修改原本的name和地址,地址没变则不改
bash
systemctl cat kubelet | grep -i environment
ls -la /etc/systemd/system/kubelet.service.d/
vi /etc/systemd/system/kubelet.service.d/10-kubeadm.conf
修改Environment="KUBELET_EXTRA_ARGS=--node-ip=172.28.112.181 --hostname-override=node-2改为node-2
2、如果驱逐节点时删除的不彻底,或误将kubeadm、kubelet、kubectl二进制文件也删了,导致的kubeadm join执行一直失败,可以执行下面清零命令和重新安装
bash
# 停止服务
systemctl stop kubelet 2>/dev/null
# 清理残留配置文件
kubeadm reset -f 2>/dev/null
rm -rf /etc/kubernetes/ /var/lib/kubelet/ /var/lib/etcd/ ~/.kube/
# 卸载旧的 kubeadm/kubelet/kubectl(如果有 RPM 包)
yum remove -y kubeadm kubelet kubectl 2>/dev/null
# 清理 systemd 残留
rm -f /etc/systemd/system/kubelet.service
rm -rf /etc/systemd/system/kubelet.service.d
systemctl daemon-reload
cat > /etc/yum.repos.d/kubernetes.repo << 'EOF'
[kubernetes]
name=Kubernetes
baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64/
enabled=1
gpgcheck=0
repo_gpgcheck=0
EOF
# 更新缓存
yum clean all && yum makecache
yum list kubeadm --showduplicates | grep "1.23"
# 安装 kubeadm、kubelet、kubectl 的 v1.23.17 版本
yum install -y kubeadm-1.23.17-0 kubelet-1.23.17-0 kubectl-1.23.17-0
# 设置 kubelet 开机自启(此时会失败,正常现象,init/join 后会起来)
systemctl enable kubelet
kubeadm version
kubelet --version
kubectl version --client
这时再执行kubeadm join那条命令大概率就不会失败了