布隆过滤器：用概率换空间的奇妙数据结构

用同样的k个哈希函数计算该元素的k个哈希值
检查位数组中这些位置是否全部为1
- 如果全部为1 → "可能存在"
- 如果有任何一个为0 → "肯定不存在"
查询 "apple":
检查位[5]、[12]、[20] → 全为1 → "可能存在"

查询 "banana":
hash1("banana") = 5 → 位[5]=1 ✓
hash2("banana") = 8 → 位[8]=0 ✗ → "肯定不存在"

为什么会有误判？

假设我们添加了"apple"，然后查询从未添加过的"orange"。如果"orange"的哈希值恰好覆盖了"apple"设置的所有位（可能还有其他元素设置的位），那么布隆过滤器会误判"orange"存在。

这就是假阳性的根源：不同元素的哈希值可能碰撞到相同的位。

关键参数与设计

1. 误判率公式

误判率 p 与三个参数有关：

m：位数组大小
n：预期插入元素数量
k：哈希函数数量

近似公式：p ≈ (1 - e^(-kn/m))^k

2. 最优参数选择

对于给定的n和期望的误判率p：

最优位数组大小：m = -n·ln(p) / (ln2)²
最优哈希函数数量：k = (m/n)·ln2

应用场景：哪些地方在用布隆过滤器？

1. 网络爬虫去重

爬虫需要判断URL是否已爬取过。使用布隆过滤器可以极大减少内存使用：

复制代码

# 伪代码示例
if not bloom_filter.might_contain(url):
    # 肯定没爬过，可以爬取
    crawl(url)
    bloom_filter.add(url)

2. 数据库查询优化

在查询前先用布隆过滤器判断数据是否存在，避免昂贵的磁盘查询：

复制代码

-- 传统查询（直接查数据库）
SELECT * FROM users WHERE id = 123;

-- 使用布隆过滤器优化
if bloom_filter.might_contain(123):
    # 可能存在，再查询数据库
    SELECT * FROM users WHERE id = 123;
else:
    # 肯定不存在，直接返回
    return null;

3. 缓存穿透防护

防止恶意查询不存在的数据反复击穿缓存到数据库：

复制代码

// 查询缓存前先检查布隆过滤器
public Object getData(String key) {
    if (!bloomFilter.mightContain(key)) {
        return null; // 肯定不存在，直接返回
    }
    
    Object data = cache.get(key);
    if (data == null) {
        data = database.get(key);
        if (data != null) {
            cache.put(key, data);
        }
    }
    return data;
}

4. 分布式系统

比特币和以太坊：使用布隆过滤器加速钱包同步
Cassandra、HBase：使用布隆过滤器减少磁盘查找
Chrome浏览器：用布隆过滤器识别恶意网址

动手实现一个简单的布隆过滤器

复制代码

import mmh3  # MurmurHash库
from bitarray import bitarray

class BloomFilter:
    def __init__(self, size, hash_count):
        """
        size: 位数组大小
        hash_count: 哈希函数数量
        """
        self.size = size
        self.hash_count = hash_count
        self.bit_array = bitarray(size)
        self.bit_array.setall(0)
    
    def add(self, item):
        for i in range(self.hash_count):
            # 使用不同的种子生成不同的哈希值
            digest = mmh3.hash(item, i) % self.size
            self.bit_array[digest] = 1
    
    def might_contain(self, item):
        for i in range(self.hash_count):
            digest = mmh3.hash(item, i) % self.size
            if self.bit_array[digest] == 0:
                return False
        return True

# 使用示例
bloom = BloomFilter(1000, 3)
bloom.add("hello")
print(bloom.might_contain("hello"))  # True
print(bloom.might_contain("world"))  # False（可能误判为True）

布隆过滤器的变体与改进

1. 计数布隆过滤器

允许删除操作，每个位置不再是0/1，而是计数器：

添加元素：对应位置计数器+1

删除元素：对应位置计数器-1（如果>0）

2. 布谷鸟过滤器

比布隆过滤器有更好的空间效率和更低的误判率，同时支持删除操作。

3. 可扩展布隆过滤器

当插入元素超过容量时，自动创建新的布隆过滤器，避免误判率急剧上升。

优缺点总结

优点：

空间效率极高：比其他数据结构节省大量内存
查询速度快：常数时间复杂度，与数据量无关
安全：不存储原始数据，只有哈希值，保护隐私
可并行化：多个哈希函数可以并行计算

缺点：

存在误判：有假阳性，没有假阴性
不支持删除：标准布隆过滤器不支持删除操作
参数敏感：需要预先知道数据规模来合理设置参数

何时使用布隆过滤器？

✅ 适合场景：

数据量巨大，内存有限
可以接受一定的误判率
需要极快的查询速度
不需要删除操作，或可以使用变体

❌ 不适合场景：

要求100%准确性的场景
需要频繁删除元素的场景
数据量很小，直接用哈希表更简单

结语：接受不完美，换取高效率

布隆过滤器教会我们一个重要的工程哲学：在合适的场景下，用可控的不完美换取巨大的效率提升。

就像生活中的许多决策一样，我们不需要100%的确定性才能行动。在可以承受的误差范围内，选择更高效的方案，往往是更明智的选择。

在数据爆炸的时代，布隆过滤器这种"可能知道"比"确切知道"更经济的数据结构，正变得越来越重要。它让我们能够用有限的资源，处理近乎无限的数据。