布隆过滤器 - 技术栈

布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，主要用于判断一个元素是否可能属于某个集合。它的基本原理是利用位数组（Bitmap）和一组哈希函数来实现快速且近似的存在性查询。

一、布隆过滤的工作原理

初始化时，位数组的所有位都被设置为0。位数组的最大长度是2的32次方，大约42亿
当要插入一个元素时，使用预先设定好的多个独立、均匀分布的哈希函数对元素进行哈希运算，每个哈希函数都会计算出一个位数组的索引位置。
将通过哈希运算得到的每个索引位置的位设置为1。
查询一个元素是否存在时，同样用相同的哈希函数对该元素进行运算，并检查对应位数组的位置是否都是1。如果所有位都为1，则认为该元素可能存在于集合中(小概率存在hash碰撞)；如果有任何一个位为0，则可以确定该元素肯定不在集合中。
由于哈希碰撞的存在，当多位同时为1时，可能出现误报（False Positive），即报告元素可能在集合中。

（所以布隆过滤器是有一定的误杀概率的，但是可以通过增加hash次数，降低hash碰撞的概率，来降低布隆的误杀率）

优点：

布隆过滤器占用空间计算:

2的32次方=4294967296(字节)

1GB = 1024*1024 *1024 = 1073741824(字节)

所以单个布隆过滤的最大存储大约是4GB，存放42亿点位的数据

缺点：

还有很多就不穷举了。

采集每天可能要处理上百亿的数据，自动导每10分钟要采集近70分钟的聊天记录。这里就存在大量的重复数据，因此需要对数据去重。去重我们采用根据消息id去重，微信聊天记录的消息ID是19位的数字字符串；

最终去重逻辑考虑把每次上传的消息分成3部分，分别是重复数据、偏移数据和新数据三部分，如图：

上面图中，我们每次可以直接过滤掉重复部分的数据，因此我们只需要对偏移部分的数据进行过滤，这大大减少了需要过滤的数据量。再把偏移部分数据使用布隆过滤去重，布隆的误杀率是万分之一。数据量相对较小，且误杀率低。