Redis 大/热Key故障处理流程

一、背景

应用持续访问又大又热的key,会造成Redis实例CPU高、流量被打满、数据在内存积压,甚至导致实例达到配额限制被oom-kill。在异步调用、pipeline、mget等批量调用场景比较常见。

大key分为两种情况

  • 集合元素多且全量获取集合数据:命令时间复杂度是O(N),持续访问这样的key会导致CPU打满,业务响应变慢,甚至超时。而且响应得不到及时发送,积压在内存,最终触发oom-kill。
  • value占用内存大:持续访问这样的key会导致响应不过来(很小的请求也会造成较大的响应),从而造成返回给客户端的数据积压在Server内存,最终触发oom-kill。

二、如何发现问题

Redis集群侧会收到端口阻塞、客户端缓冲区高、实例内存高报警,推测可能是大/热key。

应用侧看到Redis服务性能变差、甚至出现大量超时。

三、问题处理过程

1、 Redis侧关闭集群Failover

Redis值班同学收到告警后,会关闭该集群的自动failover,避免该分片上所有副本被打死导致数据丢失。同时会第一时间联系业务研发,双方一起定位出问题的key

2、研发和 Redis侧一起定位出问题的key

Redis侧:抓包(大key导致命令阻塞,只能抓包分析)、热key扫描工具

业务研发侧:日志等信息

3、选择一种合适的方式处理key

确认导致问题的key后,可以选择下面三种方式任意一种进行处理

1、对key限流(需要应用侧具备按照key限流能力)

2、在Redis客户端开启本地缓存

3、删除key或者将key设置成一个很小的值(需要权限,对业务有影响,key设置成小值,可以避免数据回源打挂数据库)

4、处理key完成后同步给Redis侧,JIMDB侧开启集群自动Redis,恢复服务

如果原来的主实例被打死,此时会自动Failover,Failover完成后业务恢复访问。

相关推荐
forestsea2 小时前
深入理解Redisson RLocalCachedMap:本地缓存过期策略全解析
redis·缓存·redisson
佛祖让我来巡山2 小时前
Redis 为什么这么快?——「极速快递站」的故事
redis·redis为什么快?
啦啦啦_99994 小时前
Redis-0-业务逻辑
数据库·redis·缓存
自不量力的A同学4 小时前
Redisson 4.2.0 发布,官方推荐的 Redis 客户端
数据库·redis·缓存
fengxin_rou5 小时前
[Redis从零到精通|第四篇]:缓存穿透、雪崩、击穿
java·redis·缓存·mybatis·idea·多线程
是阿楷啊6 小时前
Java大厂面试场景:音视频场景中的Spring Boot与微服务实战
spring boot·redis·spring cloud·微服务·grafana·prometheus·java面试
笨蛋不要掉眼泪6 小时前
Redis哨兵机制全解析:原理、配置与实战故障转移演示
java·数据库·redis·缓存·bootstrap
ALex_zry18 小时前
Redis Cluster 分布式缓存架构设计与实践
redis·分布式·缓存
乔江seven21 小时前
【Flask 进阶】3 从同步到异步:基于 Redis 任务队列解决 API 高并发与长耗时任务阻塞
redis·python·flask
这周也會开心1 天前
Redis与MySQL回写中的数据类型存储设计
数据库·redis·mysql