布隆过滤器

布隆过滤器(Bloom Filter)是一种空间效率极高的概率型数据结构,主要用于判断一个元素是否可能属于某个集合。它的基本原理是利用位数组(Bitmap)和一组哈希函数来实现快速且近似的存在性查询。

一、布隆过滤的工作原理

  1. 初始化时,位数组的所有位都被设置为0。位数组的最大长度是2的32次方,大约42亿

  2. 当要插入一个元素时,使用预先设定好的多个独立、均匀分布的哈希函数对元素进行哈希运算,每个哈希函数都会计算出一个位数组的索引位置。

  3. 将通过哈希运算得到的每个索引位置的位设置为1。

  4. 查询一个元素是否存在时,同样用相同的哈希函数对该元素进行运算,并检查对应位数组的位置是否都是1。如果所有位都为1,则认为该元素可能存在于集合中(小概率存在hash碰撞);如果有任何一个位为0,则可以确定该元素肯定不在集合中。

  5. 由于哈希碰撞的存在,当多位同时为1时,可能出现误报(False Positive),即报告元素可能在集合中。

所以布隆过滤器是有一定的误杀概率的,但是可以通过增加hash次数,降低hash碰撞的概率,来降低布隆的误杀率

二、布隆过滤器的优缺点

优点:

  1. 空间效率高:相比于精确存储所有元素的数据结构,布隆过滤器所需的内存空间小得多。

布隆过滤器占用空间计算:

2的32次方=4294967296(字节)

1GB = 1024*1024 *1024 = 1073741824(字节)

所以单个布隆过滤的最大存储大约是4GB,存放42亿点位的数据

  1. 查询速度快:只需要执行几个哈希函数并检查位数组即可完成查询。

缺点:

  1. 不可删除:标准布隆过滤器不支持元素的删除操作,因为无法得知哪些位仅是因为当前查询的元素而置1的。

  2. 误报率:随着元素数量增加,误报率也会逐渐升高,但是可以通过调整位数组大小和哈希函数数量来控制误报率。

三、应用场景

  1. 缓存击穿防护(通过缓存数据在数据库是否存在,减少对数据库的访问次数)

  2. 重复数据检测

  3. 垃圾邮件过滤(电子邮件系统的垃圾邮件地址库,快速判断收到的邮件是否可能来自已知的垃圾邮件发送者)

  4. 推荐系统(个性化推荐系统中,用于快速排除用户已经浏览过或者不感兴趣的内容)

  5. 数据分析与挖掘(在大规模数据清洗阶段,用来剔除重复样本或无效数据,采集就是这个场景)

  6. 网络安全(网络防火墙和入侵检测系统中,用于过滤已知恶意IP或攻击特征)

还有很多就不穷举了。

四、采集服务

采集每天可能要处理上百亿的数据,自动导每10分钟要采集近70分钟的聊天记录。这里就存在大量的重复数据,因此需要对数据去重。去重我们采用根据消息id去重,微信聊天记录的消息ID是19位的数字字符串;

  1. 如果直接使用布隆过滤,必然是存在很大的误杀概率。因为布隆过滤最大只有2的32位的长度,大约42亿,10位数字。

  2. 如果直接使用redis缓存消息id来去重,按照每天3亿的有效数据来计算,大约需要8G的内存,显然这也不是个好办法。

最终去重逻辑考虑把每次上传的消息分成3部分,分别是重复数据、偏移数据和新数据三部分,如图:

上面图中,我们每次可以直接过滤掉重复部分的数据,因此我们只需要对偏移部分的数据进行过滤,这大大减少了需要过滤的数据量。再把偏移部分数据使用布隆过滤去重,布隆的误杀率是万分之一。数据量相对较小,且误杀率低。

五、参考资料

布隆过滤器 Bloom Filter-CSDN博客

相关推荐
jiao_mrswang1 小时前
leetcode-18-四数之和
算法·leetcode·职场和发展
qystca1 小时前
洛谷 B3637 最长上升子序列 C语言 记忆化搜索->‘正序‘dp
c语言·开发语言·算法
薯条不要番茄酱1 小时前
数据结构-8.Java. 七大排序算法(中篇)
java·开发语言·数据结构·后端·算法·排序算法·intellij-idea
今天吃饺子1 小时前
2024年SCI一区最新改进优化算法——四参数自适应生长优化器,MATLAB代码免费获取...
开发语言·算法·matlab
是阿建吖!1 小时前
【优选算法】二分查找
c++·算法
王燕龙(大卫)1 小时前
leetcode 数组中第k个最大元素
算法·leetcode
不去幼儿园2 小时前
【MARL】深入理解多智能体近端策略优化(MAPPO)算法与调参
人工智能·python·算法·机器学习·强化学习
Mr_Xuhhh2 小时前
重生之我在学环境变量
linux·运维·服务器·前端·chrome·算法
盼海3 小时前
排序算法(五)--归并排序
数据结构·算法·排序算法
网易独家音乐人Mike Zhou6 小时前
【卡尔曼滤波】数据预测Prediction观测器的理论推导及应用 C语言、Python实现(Kalman Filter)
c语言·python·单片机·物联网·算法·嵌入式·iot