K8s节点频繁NotReady
查看平台告警
相关日志
describe node 关键字 :OOM、
etcd 关键字 :new el
apiserver 关键字 : etcdserver: no leader
message 关键字 :update node status
kubelet 关键字 :
metallb 关键字:grep -E 'NodeLeave|NodeJoin'
https://blog.csdn.net/hezuijiudexiaobai/article/details/130206736
监控
rate(node_network_receive_drop_total{}[5m])
rate(node_network_transmit_drop_total{}[5m])
rate(node_netstat_Tcp_RetransSegs[3m])
-
rate(node_network_receive_drop_total{}[5m])
:这个指标表示过去5分钟内,网络设备接收到但因为某些原因(如缓冲区满)而丢弃的数据包的速率。这个指标可以帮助识别网络拥塞或硬件问题,因为过多的丢包通常意味着网络设备无法处理传入的数据负载。 -
rate(node_network_transmit_drop_total{}[5m])
:这个指标表示过去5分钟内,网络设备在尝试发送时丢弃的数据包的速率。这可能是由于硬件问题、网络拥塞或配置错误导致的。监控这个指标有助于识别和解决网络传输问题。 -
rate(node_netstat_Tcp_RetransSegs[3m])
:这个指标表示过去3分钟内,TCP协议因为数据传输错误或超时而需要重新传输的数据段的速率。TCP重传通常意味着网络不稳定或存在延迟问题,频繁的重传可能会影响网络性能并增加延迟。
网络
ifconfig bond0
cat /proc/net/bonding/bond0
tc qdisc show dev bond0
dmesg -T |grep -i "link" |grep -v IPv6
grep -i "link" /var/log/message
系统层面 进程
最近有没有对节点做过什么操作,部署安全软件之类的
top - 整体情况
ps -ef - 特殊的进程
调整超时时间
1、etcd :https://blog.csdn.net/hezuijiudexiaobai/article/details/130968221
2、kube-controller-manager:https://blog.csdn.net/hezuijiudexiaobai/article/details/143203166
探测脚本
python 起一个脚本
csharp
python -m SimpleHTTPServer 8000
csharp
nohup bash -c "while true; do date; if ! timeout 1 curl -s -o /dev/null http://172.30.30.101:30081; then echo failed; fi; sleep 1; done" > curl.log 2>&1 &
csharp
nohup ping -i 0.1 -D 172.30.30.101 > ping_output.txt &
转为为时间
csharp
date -d @1729696429