K8s节点频繁NotReady

K8s节点频繁NotReady

查看平台告警

相关日志

describe node 关键字 :OOM、

etcd 关键字 :new el

apiserver 关键字 : etcdserver: no leader

message 关键字 :update node status

kubelet 关键字

metallb 关键字:grep -E 'NodeLeave|NodeJoin'

https://blog.csdn.net/hezuijiudexiaobai/article/details/130206736

监控

rate(node_network_receive_drop_total{}[5m])

rate(node_network_transmit_drop_total{}[5m])

rate(node_netstat_Tcp_RetransSegs[3m])

  1. rate(node_network_receive_drop_total{}[5m]):这个指标表示过去5分钟内,网络设备接收到但因为某些原因(如缓冲区满)而丢弃的数据包的速率。这个指标可以帮助识别网络拥塞或硬件问题,因为过多的丢包通常意味着网络设备无法处理传入的数据负载。

  2. rate(node_network_transmit_drop_total{}[5m]):这个指标表示过去5分钟内,网络设备在尝试发送时丢弃的数据包的速率。这可能是由于硬件问题、网络拥塞或配置错误导致的。监控这个指标有助于识别和解决网络传输问题。

  3. rate(node_netstat_Tcp_RetransSegs[3m]):这个指标表示过去3分钟内,TCP协议因为数据传输错误或超时而需要重新传输的数据段的速率。TCP重传通常意味着网络不稳定或存在延迟问题,频繁的重传可能会影响网络性能并增加延迟。

网络

ifconfig bond0

cat /proc/net/bonding/bond0

tc qdisc show dev bond0

dmesg -T |grep -i "link" |grep -v IPv6

grep -i "link" /var/log/message

系统层面 进程

最近有没有对节点做过什么操作,部署安全软件之类的

top - 整体情况

ps -ef - 特殊的进程

调整超时时间

1、etcd :https://blog.csdn.net/hezuijiudexiaobai/article/details/130968221

2、kube-controller-manager:https://blog.csdn.net/hezuijiudexiaobai/article/details/143203166

探测脚本

python 起一个脚本

csharp 复制代码
python -m SimpleHTTPServer 8000 
csharp 复制代码
nohup bash -c "while true; do date; if ! timeout 1 curl -s -o /dev/null http://172.30.30.101:30081; then echo failed; fi; sleep 1; done" > curl.log 2>&1 &
csharp 复制代码
nohup ping -i 0.1 -D 172.30.30.101 > ping_output.txt & 

转为为时间

csharp 复制代码
date -d @1729696429
相关推荐
斯普信云原生组7 分钟前
Docker 开源软件应急处理方案及操作手册——Docker 服务启动故障处理
运维·docker·容器
斯普信云原生组11 分钟前
Docker 开源软件应急处理方案及操作手册——存储卷与数据持久化问题
docker·容器·eureka
斯普信云原生组12 分钟前
Docker 开源软件应急处理方案及操作手册——Docker Compose 应急处理
docker·容器·eureka
文静小土豆20 分钟前
Harbor容器化部署
docker·kubernetes
Traving Yu24 分钟前
Kubernetes(K8s)
云原生·容器·kubernetes
hanzhuhuaa29 分钟前
golang工程部署到docker容器(三)
运维·docker·容器
s9123601011 小时前
【docker】Ubuntu22使用skopeo离线推送镜像
运维·docker·容器
迷路爸爸1801 小时前
Docker 配置镜像源后仍然 `pull` 失败:问题、原因与解决方案
docker·容器·eureka
喝醉的小喵2 小时前
iptables 规则重启机器后丢失导致k8s网络不可用
网络·后端·容器·kubernetes·虚拟化
斯普信云原生组2 小时前
Docker 开源软件应急处理方案及操作手册——日常维护与监控命令集
docker·容器·eureka