六.架构设计之存储高性能——缓存

架构设计之存储高性能------缓存

1. 存储系统的性能瓶颈

1.1 真实场景的性能困境

虽然我们可以通过各种手段来提升存储系统的性能,但在某些复杂的业务场景下,单纯依靠存储系统的性能提升可能远远不够。

典型案例:以微博热搜系统为例

2023年春节某明星离婚事件爆发的15分钟内:

  • 阅读量从50万飙升至1.2亿
  • 评论请求达到每秒87万次
  • 服务器响应延迟超过5秒

此时单纯升级数据库收效甚微,总的来说,数据库的执行流程如下:

  1. SQL解析 2. 索引查询 3. 结果返回 用户请求 数据库 CPU 磁盘 网络

由此我们可以发现数据库存在的三重性能枷锁

  • 磁盘IO瓶颈:机械磁盘查询时间过长
  • CPU计算瓶颈:复杂的SQL解析与聚合计算
  • 网络带宽瓶颈:重复数据传输占用带宽

1.2 缓存的价值发现

缓存就是为了弥补存储系统在这些复杂业务场景下的不足,缓存的基本原理就是将可能重复使用的数据放到内存中,一次生成,多次使用,避免每次使用都去访问存储系统,缓存适用的典型场景有如下两类。

读多写少的场景

场景 读写比例 传统数据库QPS 引入缓存后QPS
微信朋友圈 100:1 3,000 450,000
小红书推荐流 50:1 5,000 300,000
电商商品页 200:1 2,500 350,000

需要复杂计算结果的场景

python 复制代码
# 用户画像推荐计算(无缓存)
def generate_recommend(user_id):
    # 1. 读取用户行为数据(50ms) 
    # 2. 获取商品特征数据(100ms)
    # 3. 矩阵计算(200ms)
    # 总耗时350ms

# 引入计算结果缓存后
if cache.exists(user_id):
    return cache.get(user_id)  # 0.5ms读取缓存
else:
    result = complex_calculation()  # 计算耗时350ms
    cache.set(user_id, result)     # 缓存结果
    return result

缓存核心价值

  • 高速响应:内存访问速度比SSD快1000倍
  • 成本优化:1GB内存成本大概是同等IOPS的SSD成本的1/30
  • 卸流:70%-90%的请求不会穿透到数据库

缓存虽然存在这么多优点,但同时也给架构设计引入了更多复杂性。如果没有针对缓存的复杂性进行处理,某些场景下甚至会导致整个系统崩溃。接下来我们来盘点一下使用缓存可能存在的那些问题。

2. 缓存穿透:无形的攻击

2.1 问题现象与危害

‌缓存穿透‌是指当请求的数据在缓存系统和数据库中均不存在时,大量无效查询直接冲击数据库的现象,可能导致数据库过载甚至崩溃。‌‌例如恶意攻击者构造大量不存在的ID进行查询(如ID为999999),或业务代码逻辑错误导致频繁查询无效数据。‌‌

攻击特征

  • 恶意请求不存在的数据(如负整数ID)
  • 数据库持续空查询
  • 缓存命中率为0%

连锁反应
Hacker Cache DB Monitor OpsTeam App User 请求不存在的key 返回null 查询不存在key 返回空结果 请求不存在的key 返回null 查询不存在key 返回空结果 loop [每秒10万次请求...] CPU使用率100% 触发告警 尝试扩容/限流 扩容失败 服务不可用503 Hacker Cache DB Monitor OpsTeam App User

2.2 综合防御方案

方案一:布隆过滤器

通过布隆过滤器预先存储所有合法数据的哈希值,请求到达时快速判断数据是否存在,若不存在则直接拦截

java 复制代码
// 初始化布隆过滤器
BloomFilter<String> bloomFilter = BloomFilter.create(
    Funnels.stringFunnel(), 
    1000000,  // 预期元素量
    0.01      // 误判率
);

// 加载有效key
for(String key: validKeys) {
    bloomFilter.put(key);
}

// 请求处理流程
if(!bloomFilter.mightContain(key)) {
    return null; // 直接拦截无效请求
} 

方案二:空值缓存策略

对于查询结果为空的请求,在缓存中存储空值并设置较短过期时间(如30秒),减少重复穿透数据库的风险。‌‌

python 复制代码
def get_data(key):
    data = cache.get(key)
    if data is None:  
        # 特殊标识符缓存空值
        if cache.get(f"empty_{key}") is not None:  
            return None
        
        # 查询数据库
        db_data = db.query(key)  
        if db_data:
            cache.set(key, db_data, timeout=300)
        else:
            # 缓存空值5分钟
            cache.set(f"empty_{key}", "NONE", timeout=300)  
        return db_data

方案三:热点Key预热

热点key预热‌是指在系统启动前,提前将相关的热点数据加载到缓存中,避免在用户请求时先查询数据库再将数据缓存的问题。这样可以确保用户在查询时直接从预热的缓存中获取数据,提高系统的响应速度和用户体验。

sql 复制代码
-- 实时分析DB查询日志
SELECT query_key, COUNT(*) as freq 
FROM access_log 
WHERE result='empty' 
GROUP BY query_key
HAVING freq > 1000  -- 阈值控制

防御效果对比

方案 拦截率 误杀率 成本
布隆过滤器 99.9% 1%
空值缓存 100% 0%
熔断机制 100% 50%

3. 缓存雪崩:导致系统崩溃的多米诺骨牌

3.1 灾难发生原理

缓存雪崩是指在同一时间段内,大量缓存数据集中失效或缓存服务故障,由于缓存失效后,业务系统会重新生成缓存,因此需要再次访问数据库,导致数据库因瞬时高并发请求而压力激增甚至崩溃的系统性风险‌。该现象通常由缓存集中过期、服务宕机或流量激增引发,需通过分散失效时间、多级缓存架构等策略应对。‌‌

典型雪崩场景

  • 某电商00:00大促开始
  • 10万用户同时触发缓存到期
  • 数据库瞬时收到百万级请求
  • MySQL连接池耗尽

雪崩过程分析
缓存 DB连接池 应用服务器 用户 所有参与者 T0: 缓存批量失效 请求数据 数据失效,转发请求到DB T+0.5s: DB连接池满(100%) 请求数据库连接 无可用连接 T+1s: 响应延迟超时(>5000ms) 请求处理 处理中(等待DB连接) 响应延迟超时 T+3s: 应用服务器线程池耗尽 更多请求 请求被拒绝(线程池耗尽) T+10s: 服务全面崩溃 请求服务 服务不可用 缓存 DB连接池 应用服务器 用户 所有参与者

3.2 解决方案

策略一:过期时间离散化

java 复制代码
// 基础缓存时间(1小时)
long baseExpire = 3600; 

// 添加随机抖动(±10分钟)
long randomOffset = (long)(Math.random() * 1200 - 600);

// 最终过期时间
long finalExpire = baseExpire + randomOffset;

策略二:双层缓存架构
存在 不存在 存在 不存在 客户端请求 Local Cache 返回数据 Redis集群 返回+更新本地缓存 数据库查询 数据回填缓存

策略三:缓存永续化+异步更新

热点数据永不过期,针对高频访问数据采用后台更新策略。‌‌

python 复制代码
def get_data(key):
    data = cache.get(key)
    if not data:
        # 返回旧数据保证可用性
        stale_data = cache.get(f'stale_{key}')  
        if stale_data:
            return stale_data
        
        # 异步更新
        async_update_queue.push(key)  
        return None
    return data

# 后台更新任务
def update_cache(key):
    db_data = db.query(key)
    cache.set(key, db_data, timeout=3600)
    cache.set(f'stale_{key}', db_data)  # 永不超时副本

4. 缓存热点:流量的海啸

虽然缓存系统性能大大提升,不过对于一些热度特别高的数据,如果所有的请求都命中同一份缓存数据,则这份数据所在的缓存服务器压力也十分之大。例如,某知名明星微博宣布恋爱,短时间内上千万的用户都会来围观。缓存热点的解决方案就是复制多份缓存,将请求分散到多个缓存服务器上,减轻缓存热点导致的单台缓存服务器压力。以新浪微博为例,对于粉丝数超过100万的明星,每条微博都可以生成100份缓存,缓存的数据是一样的,通过在缓存的key里面加上编号进行区分,每次读缓存时都随机读取其中某份缓存。

5. 缓存技术盘点

5.1 主流缓存技术对比

缓存系统 读写性能 数据特性 典型应用场景
Redis 读10万/写8万 丰富数据结构 会话/计数器/队列
Memcached 读15万/写12万 简单键值 对象缓存
Ehcache 读50万/写30万 JVM堆内存储 JAVA应用本地缓存
Caffeine 读120万/写80万 高并发优化 高性能本地缓存
CDN 百万级QPS 静态资源 图片/视频分发

5.2 多级缓存架构设计

未命中 未命中 未命中 未命中 未命中 客户端 浏览器缓存 CDN边缘节点 API网关缓存 本地应用缓存 Redis集群 数据库 回填Redis 回填本地缓存 数据返回客户端

5.3 缓存治理关键指标

命中率看板

  • 核心业务缓存命中率≥95%
  • 波动阈值±5%告警

穿透防护看板

  • 布隆过滤器拦截率
  • 空值Key比例

热点监控

bash 复制代码
# Redis热点Key检测命令
redis-cli --hotkeys
# 输出示例
[27%] Hot key 'product_123' found
[15%] Hot key 'user_profile_456' found

结语:

作为架构师,想熟练将缓存融合到架构中,需要掌握三点:

  • 设计缓存策略(过期策略/更新策略)
  • 平衡系统哲学(空间换时间/延迟换吞吐)
  • 掌握技术特性(Redis vs Memcached)

缓存设计的黄金法则

  1. 任何缓存都应有失效策略
  2. 任何热key都要有疏散方案
  3. 任何缓存系统必须可降级
  4. 任何数据最终以持久层为准

"优秀的架构师不会将缓存视为独立组件,而是将其作为数据流动的调节阀------在风暴来临前蓄水防洪,在干旱季节开闸放水,方能在数据洪流中构建生生不息的技术生态。" ------ 《架构之道·缓存卷》


📌 关注 是对原创的最大认可,你的每一个关注 ,都是技术生态圈的+1节点!
🔔 开启通知,下一篇《架构设计之计算高性能------单体服务器高性能》内容更新时,你就是技术圈最前沿的「极客」!

相关推荐
独立开阀者_FwtCoder4 分钟前
Nginx 通过匹配 Cookie 将请求定向到特定服务器
java·vue.js·后端
名曰大神7 分钟前
AEM6.5集成Redis详细步骤(附代码)
java·redis·demo·aem
带刺的坐椅16 分钟前
Solon AI 五步构建 RAG 服务:2025 最新 AI + 向量数据库实战
java·redis·ai·solon·rag
东阳马生架构1 小时前
商品中心—7.自研缓存框架的技术文档
java
晴空月明3 小时前
线程安全与锁机制深度解析
java
天天摸鱼的java工程师5 小时前
你如何处理一个高并发接口的线程安全问题?说说你做过的优化措施
java·后端
Micro麦可乐5 小时前
最新Spring Security实战教程(十八)安全日志与审计:关键操作追踪与风险预警
java·spring boot·后端·安全·spring·安全审计
刘一说5 小时前
资深Java工程师的面试题目(六)数据存储
java·开发语言·数据库·面试·性能优化
江沉晚呤时5 小时前
EventSourcing.NetCore:基于事件溯源模式的 .NET Core 库
java·开发语言·数据库
考虑考虑5 小时前
JDK17中的Sealed Classes
java·后端·java ee