Redis 布隆过滤器性能对比分析

redis 实现布隆过滤器实现方法：

1、redis 的 setbit 和 getbit

特点：对于某个bit 设置0或1，对于大量的值需要存储，非常节省空间，查询速度极快，但是不能查询整个key所有的bit，在一次请求有大量的值需要过滤的场景会出现多次请求getbit，性能会急剧下降，需要把多个gitbit合并成批次，使用lua脚本或者pipeline执行提高效率。

2、redis 的 BF.RESERVE，BF.MADD和 BF.MEXISTS

特点：redis 4.0 以上官方提供的一个插件，原生Bloom过滤器，参数包括布隆过滤器的大小，误差率等，支持批量写入和批量查询，性能更优，针对一次大量请求，批量查询接口性能更快。

以上两种布隆过滤器性能测试结果对比：

硬件：单节点 redis，2G内存，2核cpu

测试条件：布隆过滤器容量都是 10000，容错率都是：0.001，场景：一次请求需要过滤10000个id，每100个批量查询一次redis，如此循环 10次。

序号	redis setbit getbit（时延单位：毫秒）	redis BF.RESERVE，BF.MADD和 BF.MEXISTS （时延单位：毫秒）
1	1556	1238
2	1475	1164
3	1734	989
4	3034	1701
5	1532	1254
6	1579	1179
7	1541	1177
8	1567	1045
9	1698	1216
10	1689	1275
平均	1740.5	1223.8

3、基于以上的测试结果，如果一次推荐请求用户已经看过10000个视频，需要过滤10000个视频，时延会上涨到秒级以上，这样对于高并发情况性能是不行的，还有其他的办法嘛？能不能一次性把整个布隆过滤器读到本地再进行过滤？

在推荐场景，布隆过滤器设置了容量5000个，容错率是0.001，布隆过滤器的最大值为：17972 byte，约 17K，如果每次写入和查询都查询整个布隆过滤器，1000qps 占用的网络带宽为: 13.92 Mbps。

测试可行性：本地构造一个布隆过滤器对象 BitSet，BitSet的最大值是int的最大，从redis查询出来序列化成BitSet对象，再进行读写操作，如果是写操作，再序列化写入redis。

复制代码

private BitSet get(long userId) {
    String key = TestBloomP.getBitMapKey(userId, "111");
    log.info("get bitset key:{}", key);
    return (BitSet) redisTemplate.opsForValue().get(key);
}
 
private void add(long userId, List<Long> filterItems) {
    BitSet bitSet = new BitSet();
 
    for (Long item : filterItems) {
        String uniqueKey = userId + ":" + item;
        List<Integer> offsets = TestBloomP.getOffsets(uniqueKey);
        for (Integer offset : offsets) {
            bitSet.set(offset);
        }
    }
    String key = TestBloomP.getBitMapKey(userId, "111");
    log.info("add bitset key:{}, size:{}", key, bitSet.size());
    redisTemplate.opsForValue().set(key, bitSet);
}

redis 使用java默认的序列化工具JdkSerializationRedisSerializer，测试结果如下：写操作会先读再写时延都是很低：

add bitset key:shop_video:filter_exposed:1607433260630157, size:143808, add count:1, time:36

get bitset time:9, bitset :143808