一、背景
今天业务突然告知 Redis 访问比较慢,但 Redis 侧并没有什么告警,经过一系列排查,最终发现 auth 认证的频率过高,定位到业务测连接池配置有问题,最终解决问题
二、排查过程
1.查看Redis CPU
CPU 在 60-70,相对高位,但也不是最高位,需要查看引起 CPU 高的原因
2.ping 延迟的异常
ping 主节点的时候发现部分耗时在 5ms 左右,很不符合预期,怀疑可能是网卡问题导致的业务访问慢,由于从节点 ping 正常,于是对 Redis 进行了主从切换,但是切换后新主的耗时也在 5ms 左右,排除网卡问题,可能是 CPU 过高导致的延迟异常
3.CPU 异常排查
查看命令的监控并进行 monitor 采集,发现 auth 的命令高达 1w/s,且都是业务的 ip 访问,这事不符合连接池的访问现象的,于是业务对代码进行了改造,符合了连接池的配置,改造后 auth 的命令次数每秒只有 1-2 次,CPU 也已经从 60% 下降到 20%,业务访问耗时完全正常了