K8s节点频繁NotReady

查看平台告警
相关日志
监控
- 网络
- [系统层面进程](#系统层面进程)
调整超时时间
探测脚本

查看平台告警

监控

rate(node_network_receive_drop_total{} $5m$ )

rate(node_network_transmit_drop_total{} $5m$ )

rate(node_netstat_Tcp_RetransSegs $3m$ )

rate(node_network_receive_drop_total{}[5m])：这个指标表示过去5分钟内，网络设备接收到但因为某些原因（如缓冲区满）而丢弃的数据包的速率。这个指标可以帮助识别网络拥塞或硬件问题，因为过多的丢包通常意味着网络设备无法处理传入的数据负载。
rate(node_network_transmit_drop_total{}[5m])：这个指标表示过去5分钟内，网络设备在尝试发送时丢弃的数据包的速率。这可能是由于硬件问题、网络拥塞或配置错误导致的。监控这个指标有助于识别和解决网络传输问题。
rate(node_netstat_Tcp_RetransSegs[3m])：这个指标表示过去3分钟内，TCP协议因为数据传输错误或超时而需要重新传输的数据段的速率。TCP重传通常意味着网络不稳定或存在延迟问题，频繁的重传可能会影响网络性能并增加延迟。

网络

ifconfig bond0

cat /proc/net/bonding/bond0

tc qdisc show dev bond0

dmesg -T |grep -i "link" |grep -v IPv6

grep -i "link" /var/log/message

系统层面进程

最近有没有对节点做过什么操作，部署安全软件之类的

top - 整体情况

ps -ef - 特殊的进程

调整超时时间

1、etcd ：https://blog.csdn.net/hezuijiudexiaobai/article/details/130968221

2、kube-controller-manager：https://blog.csdn.net/hezuijiudexiaobai/article/details/143203166

探测脚本

python 起一个脚本

csharp 复制代码

python -m SimpleHTTPServer 8000

csharp 复制代码

nohup bash -c "while true; do date; if ! timeout 1 curl -s -o /dev/null http://172.30.30.101:30081; then echo failed; fi; sleep 1; done" > curl.log 2>&1 &

csharp 复制代码

nohup ping -i 0.1 -D 172.30.30.101 > ping_output.txt &

转为为时间

csharp 复制代码

date -d @1729696429

K8s节点频繁NotReady

K8s节点频繁NotReady

查看平台告警

相关日志

监控

网络

系统层面 进程

调整超时时间

探测脚本

系统层面进程