10 亿数据判重方案对比：布隆过滤器vs 分块哈希表

方案1：布隆过滤器（Bloom Filter）------ 允许小概率"误判"的黑名单

原理详解（技术+生活类比）

布隆过滤器是一种用位数组 和多个哈希函数实现的"概率型判重器"。想象你是图书馆管理员，要快速判断一本书是否在馆内，但无法存下所有10亿本书的书名。于是：

创建"记忆表格"（位数组）：准备一张有10亿个格子的表格，每个格子只能填0或1。
生成"位置指纹"（哈希函数）：每本书通过3个不同的"随机数生成器"（哈希函数）算出3个位置，把表格对应格子标记为1。
快速查询 ：有人借书时，用同样的3个随机数生成器计算位置：
- 若3个格子全为1 → 书可能在馆内（但可能误判，因为这3个格子可能被其他书标记过）。
- 若有1个格子为0 → 书肯定不在馆内。

技术关键点

内存占用：仅需12.5GB（10亿位≈1.25亿字节≈12.5GB），比存完整数据省99%空间。
误判率：可通过调整位数组大小和哈希函数数量控制，通常设为0.1%~1%。
适用场景 ：快速筛掉"肯定不存在"的情况，如：
- 浏览器拦截恶意网站（先查布隆过滤器，再查真正的黑名单）。
- 爬虫避免重复爬取URL（先问布隆过滤器"这个URL爬过吗？"）。

代码实现（Java简化版）

java 复制代码

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

public class BloomFilterDemo {
    // 创建布隆过滤器：预计存10亿数据，误判率0.1%
    BloomFilter<String> filter = BloomFilter.create(
        Funnels.stringFunnel(java.nio.charset.StandardCharsets.UTF_8),
        1_000_000_000,
        0.001 // 误判率0.1%
    );

    // 添加数据
    public void add(String data) {
        filter.put(data);
    }

    // 查询数据（可能存在/肯定不存在）
    public boolean mightContain(String data) {
        return filter.mightContain(data);
    }
}

方案2：分块哈希表------ 把大数据拆成小抽屉

原理详解（技术+生活类比）

分块哈希表是一种"化整为零"的精确判重方法。继续以图书馆为例：

分区管理：把图书馆分成100个小房间（分片），每个房间最多放1000万本书。
建立索引：每个房间有一本目录（哈希表），记录该房间所有书的书名。
快速定位：借书时，通过书名拼音首字母确定去哪个房间（如"A-C"去1号房，"D-F"去2号房），再查对应目录。

技术关键点

内存估算：每个房间目录约500MB（1000万条数据），100个房间共需50GB内存。
分片策略 ：用哈希函数（如hash % 100）确定数据归属的分片。
优化技巧 ：
- 懒加载：只在查询某个分片时才加载其目录到内存。
- 动态扩容：若某个分片数据过多，将其拆分为多个更小的分片。

代码实现（Java简化版）

java 复制代码

import java.util.HashMap;
import java.util.List;
import java.util.concurrent.ConcurrentHashMap;

public class ShardedHashMap {
    private final int shardCount = 100; // 分100个片区
    private final List<ConcurrentHashMap<String, Boolean>> shards;

    public ShardedHashMap() {
        // 初始化100个片区的哈希表
        shards = new ArrayList<>(shardCount);
        for (int i = 0; i < shardCount; i++) {
            shards.add(new ConcurrentHashMap<>());
        }
    }

    // 计算数据该放入哪个片区
    private int getShardIndex(String key) {
        return Math.abs(key.hashCode()) % shardCount;
    }

    // 添加数据
    public void add(String key) {
        int index = getShardIndex(key);
        shards.get(index).put(key, true);
    }

    // 查询数据（精确存在/不存在）
    public boolean contains(String key) {
        int index = getShardIndex(key);
        return shards.get(index).containsKey(key);
    }
}

方案对比与选择建议

场景	选布隆过滤器	选分块哈希表
允许小概率误判	✅ 如拦截垃圾邮件	❌ 必须100%精确
内存限制严格（<16GB）	✅ 5GB就能存10亿数据	❌ 至少需要32GB+内存
查询速度要求极高	✅ 微秒级（一步到位）	❌ 需先定位分片，再查询
数据类型复杂	✅ 支持任意类型（如URL、ID）	✅ 同样支持

一句话总结

布隆过滤器：用极小内存快速判断"可能存在"或"肯定不存在"，适合容忍小误差的超大规模数据判重。
分块哈希表：把大数据拆成小份，每份单独管理，适合内存充足且必须100%准确的场景。

（注：实际使用时，布隆过滤器可配合精确存储（如数据库）进一步验证，分块哈希表可通过懒加载优化内存。）