Java基础数据结构之哈希表

概念

顺序结构以及平衡树 中，元素关键码与其存储位置之间没有对应的关系，因此在 查找一个元素时，必须要经过关键 码的多次比较 。 顺序查找时间复杂度为 O(N) ，平衡树中为树的高度，即 O( log2N ) ，搜索的效率取决于搜索过程中元素的比较次数。
理想的搜索方法：可以 不经过任何比较，一次直接从表中得到要搜索的元素 。 如果构造一种存储结构，通过某种函 数 (hashFunc) 使元素的存储位置与它的关键码之间能够建立一一映射的关系，那么在查找时通过该函数可以很快 找到该元素 。
当向该结构之中插入元素时，根据该元素的关键码和特定的函数计算出该元素应存放的位置，并且按此位置存放，而在取元素时按同样方式计算出所处位置。这样的话，存储和查找的时间复杂度就可以达到O(1)。
该方式即为哈希（散列）方法，用到的函数称为哈希（散列）函数。构造出来的结构称为哈希表或散列表
哈希函数设置为： hash(key) = key % capacity ; capacity 为存储元素底层空间总的大小。
比如一个长度为10的数组

如果要放13，hash(13)=13%10=3所以放在3下标，但如果要放14，会出现什么问题？

冲突（碰撞）

1.概念：

对于两个数据元素的关键字和 (i != j) ，有ki != kj ，但有： Hash(ki ) == Hash( kj) ，即： 不同关键字通过相同哈 希函数计算出相同的哈希地址，该种现象称为哈希冲突或哈希碰撞 。

2.冲突的发生是必然的，我们要做的就是降低冲突率

3.冲突的避免--哈希函数的设计

引起哈希冲突的一个原因可能是： 哈希函数设计不够合理 。
希函数设计原则 ：
哈希函数的定义域必须包括需要存储的全部关键码，而如果散列表允许有 m 个地址时，其值域必须在 0 到 m-1 之间
哈希函数计算出来的地址能均匀分布在整个空间中
哈希函数应该比较简单

1.直接定制法（常用）
取关键字的某个线性函数为散列地址： Hash （ Key ） = A*Key + B。优点：简单均匀；缺点：需要事先知道关键字的分布情况；使用场景：适合于查找比较小且连续的情况。
例如：Hash(key)=key-minval;对于数据97，95，91，93，96，minval是91，所以将97放到6下标，95放到4下标......
2.除留余数法
散列表中允许的地址数是m（就是下标从0到m，注意哈希表的底层首先是一个数组），那么就取小于等于m，接近于m的质数p作为除数，用函数 hash(key) = key %p来求得地址
3. 平方取中法 --( 了解 )
假设关键字为 1234 ，对它平方就是 1522756 ，抽取中间的 3 位 227 作为哈希地址；再比如关键字为 4321 ，对、它平方就是18671041 ，抽取中间的 3 位 671( 或 710) 作为哈希地址 平方取中法比较适合：不知道关键字的分 布，而位数又不是很大的情况
4. 折叠法 --( 了解 )
折叠法是将关键字从左到右分割成位数相等的几部分( 最后一部分位数可以短些 ) ，然后将这几部分叠加求和，并按散列表表长，取后几位作为散列地址。 折叠法适合事先不需要知道关键字的分布，适合关键字位数比较多的情况
5. 随机数法 --( 了解 )
选择一个随机函数，取关键字的随机函数值为它的哈希地址，即 H(key) = random(key), 其中 random 为随机数函数。 通常应用于关键字长度不等时采用此法
6. 数学分析法 --( 了解 )
设有 n 个 d 位数，每一位可能有 r 种不同的符号，这 r 种不同的符号在各位上出现的频率不一定相同，可能在某些位上分布比较均匀，每种符号出现的机会均等，在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小，选择其中各种符号分布均匀的若干位作为散列地址。
注意：哈希函数设计的越精妙，产生哈希冲突的可能性就越低，但是无法避免哈希冲突

4.冲突的避免--负载因子调节

散列表的载荷因子（负载因子）=填入表中的元素/散列表的长度

由于表长是定值，所以填入的元素越多，负载因子越大，产生冲突的可能性就越大。一般要将载荷因子控制在0.75以下，当超过0.75时，就应该对哈希表中的数组进行扩容

5.冲突的解决之闭散列

闭散列：也叫开放地址法，当发生哈希冲突时，如果哈希表未被装满，说明在哈希表中必然还有空位置，那么可以 把 key 存放到冲突位置中的 " 下一个 " 空位置中去。那么如何找到下一个空位置呢？
法一：线性探测
从发生冲突的位置开始，依次向后进行探测，直到找到下一个空位置。缺陷是产生冲突的元素会堆积在一块，例如：

想要插入11，21，31，41，就会依次放到2，3，8，0下标
法二：二次探测
找下一个空位置的方法为：Hi = (H0+ i^2)% m, 或者： Hi= (H0-i^2 )% m。其中：H0是通过哈希函数计算出的下标， i = 1,2,3... ，表示的是发生冲突的次数，例如

想要放21，通过哈希函数计算出来是1，即H0=1，这是第一次发生冲突，所以i=1，所以 Hi= (H0+i^2 )% m即Hi=(1+1)%10=2。

6.冲突的解决之开散列（哈希桶）

开散列法又叫链地址法 ( 开链法 ) ，首先对关键码集合用散列函数计算散列地址，具有相同地址的关键码归于同一子集合，每一个子集合称为一个桶，各个桶中的元素通过一个单链表链接起来，各链表的头结点存储在哈希表中。

比如要放11，通过散列函数计算出下标为1，所以可以通过头插法或者尾插法将11查到对应的链表里
这就是我们所说的哈希表实际上是数组+链表+红黑树（当数组长度>=64&&链表长度>=8以后，就会将其变成一棵红黑树）
java的HashMap就是用这种哈希表的方式来解决哈希冲突的