解决缓存穿透的布隆过滤器与布谷鸟过滤器:谁更适合你的应用场景?

目录

一、布隆过滤器:高效的空间节省者

[1.1 布隆过滤器是什么?](#1.1 布隆过滤器是什么?)

[1.2 工作原理](#1.2 工作原理)

[1.3 优点](#1.3 优点)

[1.4 缺点](#1.4 缺点)

[1.5 适用场景](#1.5 适用场景)

二、布谷鸟过滤器:解决删除难题的创新者

[2.1 布谷鸟过滤器是什么?](#2.1 布谷鸟过滤器是什么?)

[2.2 工作原理](#2.2 工作原理)

[2.3 优点](#2.3 优点)

[2.4 缺点](#2.4 缺点)

[2.5 适用场景](#2.5 适用场景)

[三、布隆过滤器 vs 布谷鸟过滤器:谁更适合你?](#三、布隆过滤器 vs 布谷鸟过滤器:谁更适合你?)

四、总结


在数据结构的世界里,布隆过滤器和布谷鸟过滤器是两种高效且独特的解决方案。它们在处理海量数据时表现出色,但各有优缺点。本文将带你深入了解这两种过滤器的工作原理、适用场景以及它们的优缺点,帮助你选择最适合的工具。

为什么使用过滤器:用于解决缓存穿透,缓存穿透是指查询一个一定不存在的数据,由于存储层查不到数据因此不写入缓存,这将导致这个不存在的数据每次请求都要到 DB 去查询,可能导致 DB 挂掉。这种情况大概率是遭到了攻击。解决方案的话,我们通常都会用布隆过滤器来解决它。如图所示:

一、布隆过滤器:高效的空间节省者

1.1 布隆过滤器是什么?

布隆过滤器是一种基于概率的紧凑型数据结构,由 Burton Howard Bloom 在 1970 年提出。它的核心思想是通过多个哈希函数将数据映射到位图(bitmap)中,从而实现高效的插入和查询操作。

1.2 工作原理

  • 插入数据:将数据通过多个哈希函数映射到位图的多个位置,并将这些位置的比特位设置为 1。

  • 查询数据:通过相同的哈希函数计算数据的映射位置。如果所有位置的比特位都是 1,则认为数据可能存在;如果有一个位置的比特位是 0,则数据一定不存在。

1.3 优点

  • 高效性:插入和查询的时间复杂度均为 O(k),其中 k 是哈希函数的数量。

  • 空间节省:相比哈希表或红黑树,布隆过滤器占用的空间更少。

  • 支持高并发:哈希函数之间相互独立,适合硬件并行运算。

1.4 缺点

  • 误判率:布隆过滤器允许误判,即可能将不存在的数据误判为存在。误判率随着插入数据量的增加而上升。

  • 无法删除数据:由于多个数据可能共享同一个比特位,删除一个数据可能会影响其他数据的查询结果。

1.5 适用场景

  • 去重:如新闻推荐系统中过滤已阅读的内容。

  • 快速判断数据是否存在:如用户名注册时的昵称检查。

  • 缓存系统:快速判断数据是否在缓存中。

二、布谷鸟过滤器:解决删除难题的创新者

2.1 布谷鸟过滤器是什么?

布谷鸟过滤器是布隆过滤器的增强版,由论文《Cuckoo Filter:Better Than Bloom》提出。它通过存储元素的指纹信息(而不是完整的元素)来节省空间,同时支持删除操作。

2.2 工作原理

  • 插入数据:使用两个哈希函数计算元素的两个可能位置。如果位置为空,直接插入;如果位置已满,则"鸠占鹊巢",将现有元素挤出并重新计算其位置。

  • 查询数据:检查两个哈希位置是否存储了匹配的指纹信息。

  • 删除数据:通过指纹信息找到对应的存储位置并移除。

2.3 优点

  • 支持删除:解决了布隆过滤器无法删除数据的问题。

  • 更高的空间利用率:在相同误判率下,布谷鸟过滤器的空间利用率比布隆过滤器高约 40%。

  • 查询性能强:通过优化哈希函数和存储结构,查询性能优于布隆过滤器。

2.4 缺点

  • 复杂性:实现比布隆过滤器更复杂,需要处理"鸠占鹊巢"导致的循环挤兑问题。

  • 固定长度要求:布谷鸟过滤器要求数组长度必须是 2 的幂次,灵活性稍差。

2.5 适用场景

  • 动态系统:如需要频繁插入和删除数据的系统。

  • 高空间利用率需求:在内存有限的环境中,布谷鸟过滤器表现更优。

三、布隆过滤器 vs 布谷鸟过滤器:谁更适合你?

特性 布隆过滤器 布谷鸟过滤器
插入和查询效率 高效(O(k)) 高效(O(1))
空间利用率 较低 更高(节省约 40%)
支持删除 不支持 支持
误判率 存在误判 存在误判,但通过优化可以降低
实现复杂度 简单 较复杂
适用场景 静态数据、去重、缓存 动态数据、频繁删除、高空间利用率需求

四、总结

布隆过滤器和布谷鸟过滤器各有千秋。如果你的应用场景对删除操作没有需求,且追求简单高效的实现,布隆过滤器是不错的选择。而如果你需要支持删除操作,并且对空间利用率有较高要求,布谷鸟过滤器则更具优势。

在选择时,可以根据实际需求权衡两者的优缺点,找到最适合你的解决方案。希望本文能为你在数据结构的选择上提供一些启发!

如果文章对您有帮助,还请您点赞支持
感谢您的阅读,欢迎您在评论区留言指正分享

相关推荐
寒页_1 小时前
2025年第十六届蓝桥杯省赛真题解析 Java B组(简单经验分享)
java·数据结构·经验分享·算法·蓝桥杯
smile-yan2 小时前
拓扑排序 —— 2. 力扣刷题207. 课程表
数据结构·算法·图论·拓扑排序
空雲.2 小时前
牛客周赛88
数据结构·c++·算法
深度学习算法与自然语言处理2 小时前
单卡4090微调大模型 DeepSeek-R1-32B
深度学习·算法·大模型·微调·transformer·面试题
lisw052 小时前
探索 Python 的 functools 模块:缓存、属性缓存与 LRU 缓存
python·spring·缓存
念九_ysl2 小时前
深入解析Java内存与缓存:从原理到实践优化
java·开发语言·缓存
Y1nhl2 小时前
基础算法:滑动窗口_python版本
开发语言·python·算法·力扣·滑动窗口
烟锁池塘柳02 小时前
【数学建模】(智能优化算法)鲸鱼优化算法(Whale Optimization Algorithm)详解与应用
算法·数学建模
地平线开发者3 小时前
【征程 6】工具链 VP 示例中 Cmakelists 解读
算法·自动驾驶
邪神与厨二病3 小时前
2025蓝桥杯python A组题解
数据结构·c++·python·算法·蓝桥杯·单调栈·反悔贪心