Flink 实战之流式数据去重

系列文章

流式数据是一种源源不断产生的数据，没有预定的开始与结束，至少理论上来说，它的数据输入永远不会结束。因此流式数据处理与传统的批处理技术不同，必须具备持续不断地对到达的数据进行处理的能力。

因为流式数据源源不断地产生，对流式数据做去重就十分困难，因为一条数据重复与否需要与之前的数据痕迹作比对，数据是无穷尽产生的，倘留存之前的数据，势必占据大量的存储空间，判重的过程也会随着数据量的增加而变得复杂耗时。

本文探索了一种流式大数据的实时去重方法，不一定适用于所有场景，不过或许可以给面对相似问题的你一点点启发。

Bloom 过滤器

海量数据的去重，很容易联想到 Bloom 过滤器。Bloom过滤器是由一个长度为 m 比特的数组与 k 个哈希函数组成的数据结构。

当要插入一个元素时，将数据分别输入到 k 个哈希函数，产生 k 个哈希值，以哈希值作为位数组中的索引，将相应的比特位置为 1。

如下图所示，是由 3 个哈希函数 + 18 个比特位组成的 Bloom 过滤器：

当元素 "hello" 插入时，3 个哈希函数分别计算得到 3 个哈希值，将哈希值对应的比特位置为 1。

当元素 "world" 插入时，3 个哈希函数分别计算再次得到 3 个哈希值，将哈希值对应的比特位置为 1。

Bloom 过滤器的巧妙之处就在于用一张位图来留存数据的痕迹，无需存储数据本身，用有限的空间和极低的时间复杂度即可完成过滤。

当要查询一个元素时，同样将其输入 k 个哈希函数，然后检查对应的 k 个比特，如果有任意一个比特为 0，表明该元素一定不在集合中；如果所有比特均为 1，表明该元素有（较大的）可能性在集合中。为什么无法百分之百确定元素在集合中呢？以元素 "test" 为例：

我们假设 "test" 经过哈希函数计算后得到的哈希值恰好是之前的数据 "hello" + "world" 的哈希值的子集，此时 Bloom 就会产生误判，误以为 "test" 已经在集合中。

不过这个误判率可以通过增加哈希函数的个数和位图的大小来控制在极低的范围内，给定预计输入的元素总数 n 和预期的假阳性率 p ，经过严格的数学推导可以得到哈希函数的个数 k 和位图的大小 m 的理论值：

\[k = \frac{m}{n}ln2 \]

\[m = - \frac{nlnp}{(ln2)^2} \]

使用 Bloom 对流式数据去重时，由于 Bloom 的位图空间有限而流数据是源源不断产生的，有限的位图空间无法应对无限的数据，而如果定时重置过滤器，重置将导致已保存状态位的丢失，从而引入重复记录，无法做到 "无缝" 衔接。示意图如下：

在 t 1 时刻重置过滤器时，将导致 t 1 时刻之前的 01，03 数据标记丢失，重置后再次出现的数据 03 将穿透过滤器，同理在 t 2 时刻、t 3 时刻、t4 时刻重置过滤器后，数据 06、08、09 也将穿透过滤器，造成去重结果不准确。

既然一个 Bloom 无法应对流数据的去重，如果用多个 Bloom 过滤器能否实现预期效果呢?

我们采用 Bloom 过滤器队列对数据流进行去重，队列中的 Bloom 过滤器是按时间依次补位到队列中的，重点在 "依次"，每个过滤器的 TTL (Time To Live) 相同，但存活的起止时间不同。

如图所示：

过滤器-1 的存活起止时间是[t 0, t3]；

过滤器-2 在 t 1 时刻补充到队列中，存活起止时间是 [t 1, t4]；

过滤器-3 在 t 2 时刻补位到队列中，存活起止时间是 [t 2, t5]；

过滤器-4 在 t 3 时刻补位到队列中，存活起止时间是 [t 3, t 6]，t 3 时刻，过滤器-1 的生命周期结束，从过滤器队首移除，新的队首是 过滤器-2；

过滤器-5 在 t 4 时刻补位到队列中，存活起止时间是 [t 4, t 7]，t 4 时刻，过滤器-2 的声明周期结束，从过滤器队首移除，新的队首是 过滤器-3；

过滤器-6 在 t 5 时刻补位到队列中，存活起止时间是 [t 5, t 8]，t 5 时刻，过滤器-3 的声明周期结束，从过滤器队首移除，新的队首是 过滤器-4；

过滤器队列中每隔固定时间间隔从队首移除一个旧的过滤器，同时补位到队尾一个新的过滤器，队列的规模一直保持固定的规模 (本例中为 3)；

这个过滤器队列如何判别重复呢?

当接收到一个数据元素时，用过滤器队列中的 每个过滤器 来判断该数据是否出现过，只有当队列中的每个过滤器都判定为 "未出现过" 时，才认为是非重复数据，允许通过；只要队列中有任何一个过滤器判断为 "已出现过"，则拦截该数据。

无论拦截或是放行该条数据，都在在当前队列中的 First 2 个过滤器中留存该数据记录的 "痕迹" （图中用相同位置的绿色 bit 标识数据的痕迹）。

还是以上图为例，介绍一下过滤器队列的工作过程：