1.3海量数据去重的Hash与BloomFilter

散列表

根据 key 计算 key 在表中的位置的数据结构;是 key 和其所在 存储地址的映射关系;

注意:散列表的节点中 kv 是存储在一起的;

cpp 复制代码
struct node {
    void *key; 
    void *val; 
    struct node *next; 
}; 

hash 函数

映射函数 Hash(key)=addr;hash 函数可能会把两个或两个以 上的不同 key 映射到同一地址,这种情况称之为冲突(或者 hash 碰撞);

选择 hash

  • 计算速度快

  • 强随机分布(等概率、均匀地分布在整个地址空间)

  • murmurhash1,murmurhash2,murmurhash3,siphash ( redis6.0 当中使用,rust 等大多数语言选用的 hash 算法来实 现 hashmap),cityhash 都具备强随机分布性;

  • siphash 主要解决字符串接近的强随机分布性 ;

负载因子

数组存储元素的个数 / 数组1长度;用来形容散列表的存储密 度;负载因子越小,冲突概率越小,负载因子越大,冲突概率越 大;

冲突处理

链表法

引用链表来处理哈希冲突;也就是将冲突元素用链表链接起 来;这也是常用的处理冲突的方式;但是可能出现一种极端情 况,冲突元素比较多,该冲突链表过长,这个时候可以将这个 链表转换为红黑树、最小堆;由原来链表时间复杂度O(n)转换为红黑树时间复杂度O(log2n);那么判断该链表过长的依据是多少?可以采用超过 256(经验值)个节点的时候将链表 结构转换为红黑树或堆结构(java hashmap);

开放寻址法

将所有的元素都存放在哈希表的数组中,不使用额外的数据结 构;一般使用线性探查的思路解决;

  1. 当插入新元素的时,使用哈希函数在哈希表中定位元素位 置

  2. 检查数组中该槽位索引是否存在元素。如果该槽位为空,则 插入,否则3;

  3. 在 2 检测的槽位索引上加一定步长接着检查2; 加一定步长 分为以下几种:

    1. i+1,i+2,i+3,i+4, ... ,i+n

    2. i-1^2 ,i+2^2 ,i-3^2,i+4^2,...这两种都会导致同类 hash 聚 集;也就是近似值它的hash值也近似,那么它的数组槽 位也靠近,形成 hash 聚集;第一种同类聚集冲突在前, 第二种只是将聚集冲突延后; 另外还可以使用双重哈希 来解决上面出现hash聚集现象:

cpp 复制代码
在.net HashTable类的hash函数Hk定义如下: 
Hk(key) = [GetHash(key) + k * (1 + (((GetHash(key) >> 5) + 1) % (hashsize -- 1)))] % hashsize 
在此 (1 + (((GetHash(key) >> 5) + 1) % (hashsize -- 1))) 与 hashsize 互为素数(两数互为素数表示两者没有共同的质因⼦); 
执⾏了 hashsize 次探查后,哈希表中的每⼀个位置都有 且只有⼀次被访问到,也就是说,对于给定的 key,对哈希表中的同⼀位置不会同时使⽤ Hi 和 Hj; 

STL unordered_* 散列表实现

在 STL 中 unordered_mapunordered_setunordered_multimapunordered_multiset 四兄弟底层实 现都是散列表;

原理图

布隆过滤器

背景

布隆过滤器是一种概率型 数据结构,它的特点是高效地插入和 查询,能确定某个字符串一定不存在 或者可能存在

布隆过滤器不存储具体数据,所以占用空间小 ,查询结果存在误差 ,但是误差可控 ,同时不支持删除操作

构成

位图(BIT 数组)+ n 个 hash 函数

m % 2^n= m & (2^n - 1 )

原理

当一个元素加入位图时,通过 k 个 hash 函数将这个元素映射到 位图的 k 个点,并把它们置为 1;当检索时,再通过 k 个 hash 函数运算检测位图的 k 个点是否都为 1;如果有不为 1 的点,那 么认为该 key 不存在;如果全部为 1,则可能存在;

为什么不支持删除操作?

  • 在位图中每个槽位只有两种状态(0 或者 1),一个槽位被 设置为 1 状态,但不确定它被设置了多少次;也就是不知道 被多少个 key 哈希映射而来以及是被具体哪个 hash 函数映 射而来;

  • 只要一个索引位为0就是不存在;如果都为1,是否一定存在? 不一定,可控的(假阳率)

应用场景

布隆过滤器通常用于判断某个 key 一定不存在的场景,同时允许判断存在时有误差的情况;

常见处理场景:① 缓存穿透的解决;② 热 key 限流;

  • 描述缓存场景,为了减轻数据库(mysql)的访问压力,在 server 端与数据库(mysql)之间加入缓存用来存储热点数据

  • 描述缓存穿透,server端请求数据时,缓存和数据库都不包含该数据,最终请求压力全部涌向数据库;

  • 发生原因:黑客利用漏洞伪造数据攻击或者内部业务 bug 造成 大量重复请求不存在的数据;

应用分析

在实际应用中,该选择多少个 hash 函数?要分配多少空间的位图?预期存储多少元素?如何控制误差?

公式如下:

cpp 复制代码
n -- 预期布隆过滤器中元素的个数,如上图 只有str1和str2 两 个元素 那么 n=2 
p -- 假阳率,在0-1之间 0.000000 
m -- 位图所占空间 
k -- hash函数的个数 
公式如下: 
n = ceil(m / (-k / log(1 - exp(log(p) / k)))) 
p = pow(1 - exp(-k / (m / n)), k) 
m = ceil((n * log(p)) / log(1 / pow(2, log(2)))); 
k = round((m / n) * log(2)); 

变量关系

假定4个初始值: n = 4000 p = 0.000000001 m = 172532 k = 30

31的时候假阳率是最低的。

确定 n 和 p

在实际使用布隆过滤器时,首先需要确定 n 和 p,通过上面的 运算得出 m 和 k;通常可以在下面这个网站上选出合适的值; https://hur.st/bloomfilter

选择 hash 函数

选择一个 hash 函数,通过给 hash 传递不同的种子偏移值,采 用线性探寻的方式构造多个 hash 函数;

cpp 复制代码
#define MIX_UINT64(v) ((uint32_t)((v>>32)^(v))) 
uint64_t hash1 = MurmurHash2_x64(key, len, Seed); 
uint64_t hash2 = MurmurHash2_x64(key, len, MIX_UINT64(hash1)); 
for (i = 0; i < k; i++) // k 是hash函数的个数 
{      
    Pos[i] = (hash1 + i*hash2) % m; // m 是位图的 ⼤⼩ 
} 

参考链接:0voice · GitHub

相关推荐
Elias不吃糖1 小时前
Leetcode-10.正则表达式匹配(暴力 或 记忆暴力)
数据结构·c++·算法·leetcode·深度优先
小年糕是糕手1 小时前
【C++】类和对象(四) -- 取地址运算符重载、构造函数plus
c语言·开发语言·数据结构·c++·算法·leetcode·蓝桥杯
sin_hielo1 小时前
leetcode 3625
数据结构·算法·leetcode
不能只会打代码1 小时前
力扣--3625. 统计梯形的数目 II 代码解析(Java,详解附注释附图)
算法·leetcode·职场和发展·力扣
练习时长一年1 小时前
LeetCode热题100(岛屿数量)
算法·leetcode·职场和发展
无限进步_1 小时前
基于单向链表的C语言通讯录实现分析
c语言·开发语言·数据结构·c++·算法·链表·visual studio
老鱼说AI1 小时前
算法初级教学第四步:栈与队列
网络·数据结构·python·算法·链表
ReinaXue1 小时前
快速认识图像生成算法:VAE、GAN 和 Diffusion Models
图像处理·人工智能·神经网络·算法·生成对抗网络·计算机视觉·语言模型
再睡一夏就好1 小时前
进程调度毫秒之争:详解Linux O(1)调度与进程切换
linux·运维·服务器·c++·算法·哈希算法