哈希表的学习

概念:

哈希又称为散列,一种组织数据的方式;有散乱排列的意思

本质是通过哈希函数把关键字Key跟存储位置建立映射关系,查找时通过这个哈希函数计算出Key的位置以进行快速查找

1. 直接定址法 --- 用关键字计算出一个绝对位置或相对位置

一组0,9之间的关键字,我们开一个10个数的数组,每个关键字的值就是存储位置的下标

a,x的一组小写字母,我们开一个24个数的数组,每个关键字acsii就是存储位置的下标

当关键字的范围比较分散时,内存会被浪费或者内存不够

N个值,M个空间 ,M>=N,关键字key放到数组的k(key)位置,k(key)在[0,M)内

哈希冲突:

两个不同的key可能会映射到同一个位置上

负载因子:

N:哈希表中映射存储的值的个数

M:哈希表的大小

负载因子:N/M

负载因子越大,哈希冲突概率越高,空间利用率越高

关键字转为整数:

我们将关键字映射到数组中的位置,整数更方便做映射计算;不是整数的,我们要转换成整数

哈希函数:

一个好的哈希函数应该是让N个关键字被等概率的均匀地散列分布到哈希表的M个空间中,当然,这是很难做到的,我们尽可能地设计这样的哈希函数去实现

除法散列法/除留余数法

M:哈希表的大小

哈希函数:h(key)=key%M

要尽量避免M为2的幂10的幂

乘法散列法

关键字K乘A(0<A<1),取出K*A的小数部分,再用M*抽取出的小数部分,再向下取值

h(key)=floor(M*((A*key)%1.0)

A最好取值为黄金分割点即为0.6180339887

全域散列法

增加函数的随机性

P:足够大的质数

a:1,P-I内的任意整数

b:0,P-1内的任意整数

处理哈希冲突

开放定址法和链地址法

采用开放定址法处理散列表的冲突时,其平均查找长度高于链接法处理冲突。开放地址法一旦产生冲突,冲突容易连在一起,引起一脸篇的冲突,链地址法一般不会

开放地址法

负载因子是小于1的

所有的元素都放到哈希表中,当有关键字key用哈希函数计算出的位置有冲突,就按规则找一个没有存储数据的位置进行存储

这里有线性探测,二次探测,双重探测

线性探测

从发生冲突的位置开始依次线性向后探测直到寻找到下一个没有存储数据的位置,如果走到哈希表的表尾,就绕回到哈希表的表头位置

hash0位置冲突,则

线性探测会出现堆积现象(踩踏)。堆积现象对求平均查找长度影响比较大

线性探测采用未删除法,当从哈希表中删除某个元素时,并没有将该元素真正的删除掉,而是采用标记的方式处理,但是不能直接将该位置标记为空,否则会影响从该位置产生冲突的元素的查找

例:

M=11

{19,30,5,36,13,20,21,12}

h(19)=19%11=8,所以19存储在下标为8的位置

h(30)=30%11=8,但是下标为8的位置以及存储了19,所以30存储在下标为9的位置

h(5)=5

h(36)=3

h(13)=2

h(20)=9,位置被占了就继续往后占

h(21)=10,也是同样

二次探测

先加一下再减一下

位置发生冲突时,依次左右按二次方跳跃式探测,直到寻找到下一个没有存储数据的位置,如果走到哈希表的表尾,就绕回到哈希表的表头位置

hash0位置冲突,则,当,hashi<0时,hashi += M

例:

{19,30,52,63,11,22}

M=11

h(19)=8

h(30)=8,hc(30,1)=hash1=(8+1*1)%11=9

h(52)=8,hc(52,1)=hash1=(8-1*1)%11=7

h(63)=8,hc(63,2)=hash2=(8+2*2)%11=1

h(11)=0

h(22)=0,hc(22,1)=hash1(0+1)%11=1,有了

所以hc(22,1)=hash1(0-1)%11=-1<0,hash1+= 11 --> 10

例题:

某个哈希表的n个关键字具有相同的哈希值,如果使用二次探测再散列法(属于二次探测,探查序列为 Hi​=(H0​+i2)%m(i=1,2,⋯ ,m 为哈希表长度) )将这n个关键字存入哈希表,至少要进行()次探测

n个关键字具有相同的哈希值,会产生冲突,需要依次寻找下一个可以使用的位置

元素1:探测1次

元素2:探测2次,因为第一个关键字占用了原本冲突的位置

......

所以总共需要探测 1+2+ ... + n = n*(n+1)/2

链地址法/哈希桶/拉链法

所有的数据不再直接存储在哈希表中,哈希表中存储一个指针,没有数据映射这个位置时,这个指针为空,++有多个数据映射到这个位置时,我们把冲突的这些数据链接成一个链表挂在哈希表的位置下面++

例:

{19,30,5,36,13,20,21,12,24,96}

M=11

h(19)=19%11=8

h(30)=30%11=8

h(5)=5

h(36)=3

h(13)=2

h(20)=9

h(21)=10

h(12)=1

h(24)=2

h(96)=88

链地址法的负载因子没有限制可以大于1

负载因子越大,哈希冲突该=概率越高,空间利用率越高

例题:

一个关键字序列:(19,14,23,1,68,20,84,27,55,11,10,79)散列存储在一个哈希表中,若散列函数为H(key)=key%7,并采用链地址法来解决冲突,则在等概率情况下查找成功的平均查找长度为()

h(19)=5

h(14)=0

.....

0\] \[1\] \[2\] \[3\] \[4\] \[5\] \[6

14 1 23 10 11 19 20

84 79 68 25

77

第一层比较一次就能找到,第二层比较两次能找到

所以总的查找次数为 1*7 + 2*4 + 3*1 = 18

所以平均查找长度为 18/12=1.5

相关推荐
for_ever_love__2 小时前
UI学习:UISearchController基础了解和应用
学习·ui·ios·objective-c
心中有国也有家2 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
GHL2842710903 小时前
换脸工作流学习
学习·ai
_李小白4 小时前
【android opencv学习笔记】Day 28: 滤波算法之中值滤波器
android·opencv·学习
meilindehuzi_a4 小时前
深入浅出数据结构:Python 字典(Dict)与集合(Set)的哈希表底层全链路追踪
数据结构·python·散列表
飞翔中文网5 小时前
Java学习笔记之抽象类与接口(设计思想)
java·笔记·学习
土星碎冰机6 小时前
xxljob学习(大白话版本)
学习·运维开发
吃好睡好便好6 小时前
说说免疫力的维护
学习·生活
凉、介7 小时前
深入理解 ARMv8-A|处理器模式与寄存器
笔记·学习·嵌入式·arm
z200509307 小时前
【linux学习】深入理解linux文件I/O,从C标准库到内核态
linux·学习·操作系统