10 亿数据判重方案对比:布隆过滤器vs 分块哈希表

方案1:布隆过滤器(Bloom Filter)------ 允许小概率"误判"的黑名单

原理详解(技术+生活类比)

布隆过滤器是一种用位数组多个哈希函数实现的"概率型判重器"。想象你是图书馆管理员,要快速判断一本书是否在馆内,但无法存下所有10亿本书的书名。于是:

  1. 创建"记忆表格"(位数组):准备一张有10亿个格子的表格,每个格子只能填0或1。
  2. 生成"位置指纹"(哈希函数):每本书通过3个不同的"随机数生成器"(哈希函数)算出3个位置,把表格对应格子标记为1。
  3. 快速查询 :有人借书时,用同样的3个随机数生成器计算位置:
    • 若3个格子全为1 → 书可能在馆内(但可能误判,因为这3个格子可能被其他书标记过)。
    • 若有1个格子为0 → 书肯定不在馆内

技术关键点

  • 内存占用:仅需12.5GB(10亿位≈1.25亿字节≈12.5GB),比存完整数据省99%空间。
  • 误判率:可通过调整位数组大小和哈希函数数量控制,通常设为0.1%~1%。
  • 适用场景 :快速筛掉"肯定不存在"的情况,如:
    • 浏览器拦截恶意网站(先查布隆过滤器,再查真正的黑名单)。
    • 爬虫避免重复爬取URL(先问布隆过滤器"这个URL爬过吗?")。

代码实现(Java简化版)

java 复制代码
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

public class BloomFilterDemo {
    // 创建布隆过滤器:预计存10亿数据,误判率0.1%
    BloomFilter<String> filter = BloomFilter.create(
        Funnels.stringFunnel(java.nio.charset.StandardCharsets.UTF_8),
        1_000_000_000,
        0.001 // 误判率0.1%
    );

    // 添加数据
    public void add(String data) {
        filter.put(data);
    }

    // 查询数据(可能存在/肯定不存在)
    public boolean mightContain(String data) {
        return filter.mightContain(data);
    }
}

方案2:分块哈希表------ 把大数据拆成小抽屉

原理详解(技术+生活类比)

分块哈希表是一种"化整为零"的精确判重方法。继续以图书馆为例:

  1. 分区管理:把图书馆分成100个小房间(分片),每个房间最多放1000万本书。
  2. 建立索引:每个房间有一本目录(哈希表),记录该房间所有书的书名。
  3. 快速定位:借书时,通过书名拼音首字母确定去哪个房间(如"A-C"去1号房,"D-F"去2号房),再查对应目录。

技术关键点

  • 内存估算:每个房间目录约500MB(1000万条数据),100个房间共需50GB内存。
  • 分片策略 :用哈希函数(如hash % 100)确定数据归属的分片。
  • 优化技巧
    • 懒加载:只在查询某个分片时才加载其目录到内存。
    • 动态扩容:若某个分片数据过多,将其拆分为多个更小的分片。

代码实现(Java简化版)

java 复制代码
import java.util.HashMap;
import java.util.List;
import java.util.concurrent.ConcurrentHashMap;

public class ShardedHashMap {
    private final int shardCount = 100; // 分100个片区
    private final List<ConcurrentHashMap<String, Boolean>> shards;

    public ShardedHashMap() {
        // 初始化100个片区的哈希表
        shards = new ArrayList<>(shardCount);
        for (int i = 0; i < shardCount; i++) {
            shards.add(new ConcurrentHashMap<>());
        }
    }

    // 计算数据该放入哪个片区
    private int getShardIndex(String key) {
        return Math.abs(key.hashCode()) % shardCount;
    }

    // 添加数据
    public void add(String key) {
        int index = getShardIndex(key);
        shards.get(index).put(key, true);
    }

    // 查询数据(精确存在/不存在)
    public boolean contains(String key) {
        int index = getShardIndex(key);
        return shards.get(index).containsKey(key);
    }
}

方案对比与选择建议

场景 选布隆过滤器 选分块哈希表
允许小概率误判 ✅ 如拦截垃圾邮件 ❌ 必须100%精确
内存限制严格(<16GB) ✅ 5GB就能存10亿数据 ❌ 至少需要32GB+内存
查询速度要求极高 ✅ 微秒级(一步到位) ❌ 需先定位分片,再查询
数据类型复杂 ✅ 支持任意类型(如URL、ID) ✅ 同样支持

一句话总结

  • 布隆过滤器:用极小内存快速判断"可能存在"或"肯定不存在",适合容忍小误差的超大规模数据判重。
  • 分块哈希表:把大数据拆成小份,每份单独管理,适合内存充足且必须100%准确的场景。

(注:实际使用时,布隆过滤器可配合精确存储(如数据库)进一步验证,分块哈希表可通过懒加载优化内存。)

相关推荐
llz_1122 小时前
web-第二次课后作业
前端·后端·web
AI人工智能+电脑小能手8 小时前
【大白话说Java面试题 第87题】【Mysql篇】第17题:分布式事务的实现原理?
java·数据库·分布式·mysql·面试
红尘散仙8 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
卷毛的技术笔记9 小时前
告别硬编码!Spring AI Alibaba 实现 AI Agent 智能工具调用(Tool Calling)
java·人工智能·后端·python·spring·ai编程
会编程的土豆9 小时前
Go 语言反射(Reflection)详解
开发语言·后端·golang
Cosolar10 小时前
从零写一个 Attention Is All You Need
人工智能·面试·架构
喵个咪10 小时前
GoWind Toolkit Go后端代码生成 完整全流程实战
后端·go·orm
basketball61610 小时前
Go 语言从入门到进阶:4. 数组和MAP使用方法总结
开发语言·后端·golang
qq_25183645710 小时前
SpringBoot+Vue 共享电池柜管理系统 完整实现 前后端分离项目实战 完整代码
vue.js·spring boot·后端
zhangxingchao11 小时前
AI 大模型核心六:量化、Workflow 与 Agent、多轮 RAG
前端·人工智能·后端