算法技巧-布隆过滤器

布隆过滤器(英语:Bloom Filter)是1970年由一个叫布隆的小伙子提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。

收录在算法技巧、数据结构、常见算法汇总

布隆过滤器原理

当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。

检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。

布隆过滤器说某个元素存在,小概率会误判。布隆过滤器说某个元素不在,那么这个元素一定不在。

布隆过滤器应用

  1. 判断给定数据是否存在:比如判断一个数字是否存在于包含大量数字的数字集中(数字集很大,上亿)、 防止缓存穿透(判断请求的数据是否有效避免直接绕过缓存请求数据库)等等、邮箱的垃圾邮件过滤(判断一个邮件地址是否在垃圾邮件列表中)、黑名单功能(判断一个 IP 地址或手机号码是否在黑名单中)等等。
  2. 去重:比如爬给定网址的时候对已经爬取过的 URL 去重、对巨量的 QQ 号/订单号去重。

去重场景也需要用到判断给定数据是否存在,因此布隆过滤器主要是为了解决海量数据的存在性问题。

布隆过滤器实践

下面基于redission客户端的redis布隆过滤器做简单实践。 redis配置

java 复制代码
@Configuration
public class RedisConfig {
    @Value("${spring.redis.host}")
    private String redisHost;

    @Value("${spring.redis.port}")
    private int redisPort;

    @Bean(destroyMethod = "shutdown")
    public RedissonClient redissonClient() {
        Config config = new Config();
        config.useSingleServer()
                .setAddress("redis://" + redisHost + ":" + redisPort);

        return Redisson.create(config);
    }
}

布隆过滤器配置

java 复制代码
@Service
public class BloomFilter {
    private final RedissonClient redissonClient;

    private RBloomFilter<String> bloomFilter;

    @Autowired
    public BloomFilter(RedissonClient redissonClient) {
        this.redissonClient = redissonClient;
    }


    @PostConstruct
    private void init() {
        bloomFilter = redissonClient.getBloomFilter("test");
        bloomFilter.tryInit(10000L, 0.01);
    }

    public boolean add(String key) {
        return bloomFilter.add(key);
    }

    public boolean contains(String key) {
        return bloomFilter.contains(key);
    }
}

测试用例

java 复制代码
@RunWith(SpringRunner.class)
@SpringBootTest(classes = Application.class)
@Slf4j
public class BloomFilterTest {

    @Resource
    private BloomFilter bloomFilter;

    @Test
    public void testBloomFilter() {
        boolean ret = bloomFilter.add("test1");
        log.info("testBloomFilter ret={}", ret);
        ret = bloomFilter.add("test2");
        log.info("testBloomFilter ret={}", ret);
        ret = bloomFilter.contains("test1");
        log.info("testBloomFilter ret={}", ret);
        ret = bloomFilter.contains("test2");
        log.info("testBloomFilter ret={}", ret);
    }
}

执行结果

txt 复制代码
2023-12-31 17:23:14.478|INFO |test|1|127.0.0.1|08f03f7f8b5c44bbad4c7962e6018b04|testBloomFilter ret=true|com.toby.dynamic.data.source.redis.BloomFilterTest
2023-12-31 17:23:14.478|INFO |test|1|127.0.0.1|08f03f7f8b5c44bbad4c7962e6018b04|testBloomFilter ret=true|com.toby.dynamic.data.source.redis.BloomFilterTest
2023-12-31 17:23:14.478|INFO |test|1|127.0.0.1|08f03f7f8b5c44bbad4c7962e6018b04|testBloomFilter ret=true|com.toby.dynamic.data.source.redis.BloomFilterTest
2023-12-31 17:23:14.478|INFO |test|1|127.0.0.1|08f03f7f8b5c44bbad4c7962e6018b04|testBloomFilter ret=true|com.toby.dynamic.data.source.redis.BloomFilterTest

参考
Redis BloomFilter布隆过滤器原理与实现
布隆过滤器
布隆过滤器

相关推荐
white-persist14 分钟前
【vulhub shiro 漏洞复现】vulhub shiro CVE-2016-4437 Shiro反序列化漏洞复现详细分析解释
运维·服务器·网络·python·算法·安全·web安全
独自破碎E23 分钟前
面试官:你有用过Java的流式吗?比如说一个列表.stream这种,然后以流式去处理数据。
java·开发语言
IT_陈寒26 分钟前
Vue的响应式把我坑惨了,原来问题出在这
前端·人工智能·后端
shark222222237 分钟前
能懂!基于Springboot的用户增删查改(三层设计模式)
spring boot·后端·设计模式
2601_9498180938 分钟前
头歌答案--爬虫实战
java·前端·爬虫
FL162386312942 分钟前
基于C#winform部署软前景分割DAViD算法的onnx模型实现前景分割
开发语言·算法·c#
2601_949817921 小时前
大厂Java进阶面试解析笔记文档
java·笔记·面试
郭wes代码1 小时前
大三Java课设:一行行敲出来的贪吃蛇,老师以为我是CV的
java·开发语言
baizhigangqw1 小时前
启发式算法WebApp实验室:从搜索策略到群体智能的能力进阶
算法·启发式算法·web app
IGAn CTOU1 小时前
王炸级更新!Spring Boot 3.4 正式发布,新特性真香!
java·spring boot·后端