解决缓存穿透的布隆过滤器与布谷鸟过滤器:谁更适合你的应用场景?

目录

一、布隆过滤器:高效的空间节省者

[1.1 布隆过滤器是什么?](#1.1 布隆过滤器是什么?)

[1.2 工作原理](#1.2 工作原理)

[1.3 优点](#1.3 优点)

[1.4 缺点](#1.4 缺点)

[1.5 适用场景](#1.5 适用场景)

二、布谷鸟过滤器:解决删除难题的创新者

[2.1 布谷鸟过滤器是什么?](#2.1 布谷鸟过滤器是什么?)

[2.2 工作原理](#2.2 工作原理)

[2.3 优点](#2.3 优点)

[2.4 缺点](#2.4 缺点)

[2.5 适用场景](#2.5 适用场景)

[三、布隆过滤器 vs 布谷鸟过滤器:谁更适合你?](#三、布隆过滤器 vs 布谷鸟过滤器:谁更适合你?)

四、总结


在数据结构的世界里,布隆过滤器和布谷鸟过滤器是两种高效且独特的解决方案。它们在处理海量数据时表现出色,但各有优缺点。本文将带你深入了解这两种过滤器的工作原理、适用场景以及它们的优缺点,帮助你选择最适合的工具。

为什么使用过滤器:用于解决缓存穿透,缓存穿透是指查询一个一定不存在的数据,由于存储层查不到数据因此不写入缓存,这将导致这个不存在的数据每次请求都要到 DB 去查询,可能导致 DB 挂掉。这种情况大概率是遭到了攻击。解决方案的话,我们通常都会用布隆过滤器来解决它。如图所示:

一、布隆过滤器:高效的空间节省者

1.1 布隆过滤器是什么?

布隆过滤器是一种基于概率的紧凑型数据结构,由 Burton Howard Bloom 在 1970 年提出。它的核心思想是通过多个哈希函数将数据映射到位图(bitmap)中,从而实现高效的插入和查询操作。

1.2 工作原理

  • 插入数据:将数据通过多个哈希函数映射到位图的多个位置,并将这些位置的比特位设置为 1。

  • 查询数据:通过相同的哈希函数计算数据的映射位置。如果所有位置的比特位都是 1,则认为数据可能存在;如果有一个位置的比特位是 0,则数据一定不存在。

1.3 优点

  • 高效性:插入和查询的时间复杂度均为 O(k),其中 k 是哈希函数的数量。

  • 空间节省:相比哈希表或红黑树,布隆过滤器占用的空间更少。

  • 支持高并发:哈希函数之间相互独立,适合硬件并行运算。

1.4 缺点

  • 误判率:布隆过滤器允许误判,即可能将不存在的数据误判为存在。误判率随着插入数据量的增加而上升。

  • 无法删除数据:由于多个数据可能共享同一个比特位,删除一个数据可能会影响其他数据的查询结果。

1.5 适用场景

  • 去重:如新闻推荐系统中过滤已阅读的内容。

  • 快速判断数据是否存在:如用户名注册时的昵称检查。

  • 缓存系统:快速判断数据是否在缓存中。

二、布谷鸟过滤器:解决删除难题的创新者

2.1 布谷鸟过滤器是什么?

布谷鸟过滤器是布隆过滤器的增强版,由论文《Cuckoo Filter:Better Than Bloom》提出。它通过存储元素的指纹信息(而不是完整的元素)来节省空间,同时支持删除操作。

2.2 工作原理

  • 插入数据:使用两个哈希函数计算元素的两个可能位置。如果位置为空,直接插入;如果位置已满,则"鸠占鹊巢",将现有元素挤出并重新计算其位置。

  • 查询数据:检查两个哈希位置是否存储了匹配的指纹信息。

  • 删除数据:通过指纹信息找到对应的存储位置并移除。

2.3 优点

  • 支持删除:解决了布隆过滤器无法删除数据的问题。

  • 更高的空间利用率:在相同误判率下,布谷鸟过滤器的空间利用率比布隆过滤器高约 40%。

  • 查询性能强:通过优化哈希函数和存储结构,查询性能优于布隆过滤器。

2.4 缺点

  • 复杂性:实现比布隆过滤器更复杂,需要处理"鸠占鹊巢"导致的循环挤兑问题。

  • 固定长度要求:布谷鸟过滤器要求数组长度必须是 2 的幂次,灵活性稍差。

2.5 适用场景

  • 动态系统:如需要频繁插入和删除数据的系统。

  • 高空间利用率需求:在内存有限的环境中,布谷鸟过滤器表现更优。

三、布隆过滤器 vs 布谷鸟过滤器:谁更适合你?

特性 布隆过滤器 布谷鸟过滤器
插入和查询效率 高效(O(k)) 高效(O(1))
空间利用率 较低 更高(节省约 40%)
支持删除 不支持 支持
误判率 存在误判 存在误判,但通过优化可以降低
实现复杂度 简单 较复杂
适用场景 静态数据、去重、缓存 动态数据、频繁删除、高空间利用率需求

四、总结

布隆过滤器和布谷鸟过滤器各有千秋。如果你的应用场景对删除操作没有需求,且追求简单高效的实现,布隆过滤器是不错的选择。而如果你需要支持删除操作,并且对空间利用率有较高要求,布谷鸟过滤器则更具优势。

在选择时,可以根据实际需求权衡两者的优缺点,找到最适合你的解决方案。希望本文能为你在数据结构的选择上提供一些启发!

如果文章对您有帮助,还请您点赞支持
感谢您的阅读,欢迎您在评论区留言指正分享

相关推荐
全域智图2 小时前
元胞自动机(Cellular Automata, CA)
人工智能·算法·机器学习
珂朵莉MM2 小时前
2022 RoboCom 世界机器人开发者大赛-本科组(省赛)解题报告 | 珂学家
人工智能·算法·职场和发展·深度优先·图论
独家回忆3642 小时前
每日算法-250601
数据结构·算法
YONYON-R&D2 小时前
DEEPSEEK帮写的STM32消息流函数,直接可用.已经测试
算法·消息流
Steve lu3 小时前
回归任务损失函数对比曲线
人工智能·pytorch·深度学习·神经网络·算法·回归·原力计划
蒙奇D索大4 小时前
【数据结构】图论核心算法解析:深度优先搜索(DFS)的纵深遍历与生成树实战指南
数据结构·算法·深度优先·图论·图搜索算法
让我们一起加油好吗4 小时前
【基础算法】高精度(加、减、乘、除)
c++·算法·高精度·洛谷
不会敲代码的灵长类4 小时前
机器学习算法-k-means
算法·机器学习·kmeans
Studying 开龙wu4 小时前
机器学习有监督学习sklearn实战二:六种算法对鸢尾花(Iris)数据集进行分类和特征可视化
学习·算法·机器学习
鑫鑫向栄5 小时前
[蓝桥杯]缩位求和
数据结构·c++·算法·职场和发展·蓝桥杯