【STL库】哈希表的原理 | 哈希表模拟实现

🫧 励志不掉头发的内向程序员个人主页
✨️ 个人专栏: 《C++语言》《Linux学习》

🌅偶尔悲伤,偶尔被幸福所完善


👓️博主简介:

文章目录


前言

我们在前面一篇文章中已经了解到了我们 unordered_map/unordered_set 的内容,我们已经了解到了它的查找效率以及插入删除等效率都是 O(1) 的,如此低的效率,那它的底层肯定也是十分神奇的,我们赶紧来了解了解吧。


一、哈希概念

哈希到底是什么,它的主要作用又是干什么的,为什么它对于我们程序猿来说非常的重要,这一切的一切我们都得先从它的概念开始讲起。

哈希 (hash) 又称散列,是一种组织数据的方式。从译名来看,有散乱排列的意思。本质就是通过哈希函数把关键字 Key 跟存储位置建立一个映射关系,查找时通过这个哈希函数计算出 Key 存储的位置,进行快速查找。

注意:

与哈希相比,散列可以更好的表达出数据实际分布的样貌,而哈希只是翻译过来这么叫罢了。

二、直接定址法

我们想要实现哈希存储,就得想办法建立一个比较好的规则去映射我们的 Key 和存储位置之间的关系,而最简单的办法就是直接定制法。

当关键字的范围比较集中时,直接定址法就是非常简单高效的方法,比如一组关键字都在 [0 , 99] 之间,那么我们开一个 100 个数的数组,每个关键字的值直接就是存储位置的下标。再比如一组关键字值都在 [ a , z ] 的小写字母,那么我们开一个 26 个数的数组,每个关键字 ASCII 码 - a, ASCII 码就是存储位置的下标。也就是说直接定址法本质就是用关键字计算出一个绝对位置或者相对位置。

这种方法非常简单直观,此时如果我们想要去查找一个数字,我们直接就去映射的位置去找就行了,查找速度就是 O(1),想要插入一个值直接去判断它那个位置有没有插入过,没有就直接插入就行了,也是 O(1) 的效率,这就是我们为什么哈希表的效率是 O(1)的原因,因为它在我们要它去增删查一个数据时,它能够通过它的映射原理锁定到一个具体的位置,直接在那个位置进行操作即可。

三、哈希冲突

我们直接定址法这么简单好用,那我们哈希表的底层会不会就是用的直接定址法呢?答案肯定不是,因为直接定址法有着非常严重的缺陷。

直接定址法在关键字的范围比较分散时,就很浪费内存甚至内存不够用。假设我们只有数据范围是 [ 0 , 9999 ] 的 N 个值,我们要映射到一个 M 个空间的数组中 (⼀般情况下 M >= N) ,那么就要借助哈希函数(hash function) hf,关键字 key 被放到数组的 h(key) 位置,这里要注意的是 h(key) 计算出的值必须在 [ 0 , M ) 之间。这里存在的一个问题就是,两个不同的 key 可能会映射到同一个位置去,这种问题我们叫做哈希冲突,或者哈希碰撞。

理想情况是找出一个好的哈希函数避免冲突,但是实际场景中,冲突是不可避免的,所以我们尽可能设计出优秀的哈希函数,减少冲突的次数,同时也要去设计出解决冲突的方案。

注意:

直接定址法不管数据是否集中,都只适用于整型,像浮点型、string等这些类型是不适用的。

四、负载因子

我们是没有办法写出一个完美的哈希函数使我们映射每一个值的时候都不会产生哈希冲突的,所以我们是一定要想办法设计出一个能够解决哈希冲突的方案。在此之前我们先来了解了解什么是负载因子。

假设哈希表中已经映射存储了 N 个值,哈希表的大小为 M,那么负载因子 = N / M,负载因子有些地方也翻译为载荷因子/装载因子等,他的英文为 load factor。负载因子越大,哈希冲突的概率越高,空间利用率越高;负载因子越小,哈希冲突的概率越低,空间利用率越低;

五、将关键词转为整数

在上一章节我们还了解到了 unordered_map/unordered_set 类定义时,第二个模板参数的作用是用来要求 Key 支持转换为整型的,那个时候大家可能不知道没事转化成整型的原因是什么,这里就来解释一下。

我们将关键字映射到数组中位置,一般是整数,好做映射计算,如果不是整数,我们要想办法转换成整数,这个细节我们后面代码实现中再进行细节展示。下面哈希函数部分我们讨论时,如果关键字不是整数,那么我们讨论的 Key 是关键字转换成的整数。就比如如果我们字符串想要实现哈希,我们就得把我们的字符串想办法变成整型,然后存储到对应下标的位置,就比如把每个字符的 ASCII 乘一个固定值,然后相加等操作。

六、哈希函数

一个好的哈希函数应该让 N 个关键字被等概率的均匀的散列分布到哈希表的 M 个空间中,但是实际中却很难做到,但是我们要尽量往这个方向去考量设计。

6.1、除法散列法/除留余数法

  • 除法散列法也叫做除留余数法,顾名思义,假设哈希表的大小为 M,那么通过 key 除以 M 的余数作为映射位置的下标,也就是哈希函数为:h(key) = key % M。
  • 当使用除法散列法时,要尽量避免 M 为某些值,如 2 的幂,10 的幂等。如果是 2x,那么key % 2x 本质相当于保留 key 的后 x 位,那么后 x 位相同的值,计算出的哈希值都是一样的,就冲突了。如:{ 63 , 31 } 看起来没有关联的值,如果 M 是 16,也就是 24,那么计算出的哈希值都是 15,因为 63 的⼆进制后 8 位是 00111111,31 的⼆进制后8位是 00011111。如果是 10x,就更明显了,保留的都是 10 进值的后 x 位,如:{ 112 , 12312 },如果 M 是 100,也就是 102 ,那么计算出的哈希值都是12。

  • 当使用除法散列法时,建议 M 取不太接近 2 的整数次幂的⼀个质数(素数)。

6.2、乘法散列法

  • 乘法散列法对哈希表大小 M 没有要求,他的大思路第一步:用关键字 K 乘上常数 A ( 0 < A < 1 ),并抽取出 k * A 的小数部分。第二步:后再用 M 乘以 k * A 的小数部分,再向下取整。
  • h(key) = floor(M × ((A × key) % 1.0)) ,其中 floor 表示对表达式进行下取整,% 1.0 表示去除整数部分,只保留小数部分,A ∈ ( 0 , 1 ),这里最重要的是 A 的值应该如何设定,Knuth 认为 A = ( 5 \sqrt{5} 5 − 1) / 2 = 0.6180339887...(黄金分割点) 比较好。
  • 乘法散列法对哈希表大小 M 是没有要求的,假设 M 为 1024,key 为 1234,A = 0.6180339887,A * key = 762.6539420558,取小数部分为 0.6539420558,M × ((A × key) %1.0) = 0.6539420558 * 1024 = 669.6366651392,那么 h(1234) = 669。

6.3、全域散列法

  • 如果存在一个恶意的对手,他针对我们提供的散列函数,特意构造出一个发生严重冲突的数据集,比如,让所有关键字全部落入同一个位置中。这种情况是可以存在的,只要散列函数是公开且确定的,就可以实现此攻击。解决方法自然是见招拆招,给散列函数增加随机性,攻击者就无法找出确定可以导致最坏情况的数据。这种方法叫做全域散列。
  • hab (key) = ((a × key + b) % P ) % M,P 需要选一个⾜够足够大的质数,a 可以随机选 [ 1 , P - 1 ] 之间的任意整数,b 可以随机选 [ 0 , P - 1 ] 之间的任意整数,这些函数构成了⼀个 P * ( P - 1 ) 组全域散列函数组。假设 P = 17,M = 6,a = 3, b = 4, 则 h34 (8) = ((3 × 8 + 4) % 17) % 6 = 5。
  • 需要注意的是每次初始化哈希表时,随机选取全域散列函数组中的一个散列函数使用,后续增删查改都固定使用这个散列函数,否则每次哈希都是随机选⼀个散列函数,那么插入是⼀个散列函数,查找又是另一个散列函数,就会导致找不到插入的 key 了。

七、处理哈希冲突

实践中哈希表一般还是选择除法散列法作为哈希函数,当然哈希表无论选择什么哈希函数也避免不了冲突,那么插入数据时,如何解决冲突呢?主要有两种两种方法,开放定址法和链地址法。

7.1、开放定址法

在开放定址法中所有的元素都放到哈希表里,当一个关键字 key 用哈希函数计算出的位置冲突了,则按照某种规则找到一个没有存储数据的位置进行存储,开放定址法中负载因子一定是小于 1 的。这⾥的规则有三种:线性探测、⼆次探测、双重探测。

(1)线性探测

  • 从发生冲突的位置开始,依次线性向后探测,直到寻找到下一个没有存储数据的位置为止,如果走到哈希表尾,则回绕到哈希表头的位置。
  • h(key) = hash0 = key % M , hash0 位置冲突了,则线性探测公式为:hc(key,i) = hashi = (hash0 + i) % M,i = {1, 2, 3, ..., M − 1},因为负载因子小于1,则最多探测 M - 1 次,一定能找到一个存储 key 的位置。
  • 线性探测的比较简单且容易实现,线性探测的问题假设,hash0 位置连续冲突,hash0,hash1,hash2 位置已经存储数据了,后续映射到 hash0,hash1,hash2,hash3 的值都会争夺 hash3 位置,这种现象叫做群集/堆积。下面的⼆次探测可以⼀定程度改善这个问题。

下面演示 { 19, 30, 5, 36, 13, 20, 21, 12 } 等这一组值映射到 M = 11 的表中。

此时通过我们的映射方式 % 11 能把它们对应到数组下标的位置分别是:
h(19) = 8,h(30) = 8,h(5) = 5,h(36) = 3,h(13) = 2,h(20) = 9,h(21) = 10,h(12) = 1

我们可以看到我们 19 和 30 哈希冲突了。

最终效果:

主要流程是,我的位置被占了,我就去占别人的位置。

(2)二次探测

  • 从发生冲突的位置开始,依次左右按二次方跳跃式探测,直到寻找到下一个没有存储数据的位置为止,如果往右走到哈希表尾,则回绕到哈希表头的位置;如果往左走到哈希表头,则回绕到哈希表尾的位置
  • h(key) = hash0 = key % M,hash0 位置冲突了,则二次探测公式为:hc(key,i) = hashi = (hash0 ± i2 ) % M, i = {1, 2, 3, ..., M / 2}
  • 二次探测当 hashi = (hash0 − i2) % M 时,当 hashi < 0 时,需要hashi += M
  • 下面演示 {19, 30, 52, 63, 11, 22} 等这一组值映射到 M = 11 的表中

    h(19) = 8, h(30) = 8, h(52) = 8, h(63) = 8, h(11) = 0, h(22) = 0


    最终效果:

    和线性探测的逻辑其实是差不多的,只不过是让它们变得更分散了。

(3)双重散列(了解即可)

  • 第一个哈希函数计算出的值发生冲突,使用第二个哈希函数计算出一个跟 key 相关的偏移量值,不断往后探测,直到寻找到下一个没有存储数据的位置为止
  • h1(key) = hash0 = key % M,hash0 位置冲突了,则双重探测公式为:hc(key,i) = hashi = (hash0 + i ∗ h2 (key)) % M,i = { 1, 2, 3, ..., M }
  • 要求 h2(key) < M 且 h2(key) 和 M 互为质数,有两种简单的取值方法:1、当 M 为 2 整数幂时,h2(key) 从 [ 0,M - 1 ] 任选⼀个奇数;2、当M为质数时,h2 (key) = key % (M − 1) + 1
  • 保证 h2(key) 与 M 互质是因为根据固定的偏移量所寻址的所有位置将形成一个群,若最大公约数 p = gcd(M, h1(key)) > 1,那么所能寻址的位置的个数为 M/P < M,使得对于一个关键字来说无法充分利用整个散列表。举例来说,若初始探查位置为 1,偏移量为 3,整个散列表大小为 12,那么所能寻址的位置为{ 1, 4, 7, 10 },寻址个数为 12/gcd(12, 3) = 4
  • 下⾯演示 { 19, 30, 52, 74} 等这一组值映射到 M = 11 的表中,设 h2 (key) = key % 10 + 1

7.2、开放定址法代码实现

开放定址法在实践中,不如下面讲的链地址法,因为开放定址法解决冲突不管使用哪种方法,占用的都是哈希表中的空间,始终存在互相影响的问题。所以开放定址法,我们简单选择线性探测实现即可。

(1)开放定址法的哈希表结构

我们在实现我们哈希表的基础框架前,我们得先搞明白我们的哈希表是如何查找我们的数据的。我们先来看看下面的图。

当我们想要查找 20 时哈希表的具体操作是这样的。

此时如果我们把 30 删除了,再去查找 20 就会出现问题。

为了避免此问题的发生这里需要给每个存储值的位置加一个状态标识,否则删除一些值以后,会影响后面冲突的值的查找。当我们给每个位置加一个状态标识 { EXIST , EMPTY , DELETE } ,删除30就可以不用删除值,而是把状态改为 DELETE ,那么查找20 时是遇到 EMPTY 才能,就可以找到 20。

cpp 复制代码
enum State
{
	EXIST,
	EMPTY,
	DELETE
};

template<class K, class V>
struct HashData
{
	pair<K, V> _kv;
	State _state = EMPTY;
};

template < class K, class V>
class HashTable
{
private:
	vector<HashData<K, V>> _tables;
	size_t _n = 0; // 表中存储数据个数
};

从这里我们就能看出来,哈希冲突越多,哈希效率就越低,因为要不停的往后找。

(2)插入框架

插入的基本框架就是按照流程去插入即可。

  • 计算出映射后的下标位置
  • 如果哈希冲突,就开始进行线性探测,去探测插入位置
  • 如果探测的位置为 empty/delete 即可进行插入,如果是 exist 就继续往后探测
  • 如果探测到末尾还是没探测成功就返回头部继续探测
cpp 复制代码
bool Insert(const pair<K, V>& kv)
{
	
	size_t hash0 = kv.first % _tables.size();
	size_t hashi = hash0;
	size_t i = 1;
	while (_tables[hashi]._state == EXIST)
	{
		// 线性探测
		hashi = (hash0 + i) % _tables.size();
		++i;
	}
	_tables[hashi]._kv = kv;
	_tables[hashi]._state = EXIST;
	++_n;
	return true;
}

这个插入只是简单的实现,因为我们还得考虑扩容等问题。

(3)扩容

如果有细心的小伙伴就会发现我们上面的插入其实是有一些问题的,就比如我们如果把我们数据插入满了,那我们的代码就会陷入死循环,我们想要避免这件事情发生就得扩容。

说到扩容我们就不得不提到上面的负载因子,它的值越大,我们哈希表的效率就越低下,所以我们扩容时就得看看我们的负载因子得满足什么条件时扩容。而这里我们哈希表负载因子控制在 0.7,当负载因子到 0.7 以后我们就需要扩容了。

cpp 复制代码
if (_n * 10 / _tables.size() >= 7) // 把它被除数乘10倍就不用考虑浮点数问题了。

我们如果想按照 2 倍扩容,同时我们要保持哈希表大小是一个质数。此时我们可以再创建一个vector,然后把数据插入我们的新 vector 中,再交换我们的 vector。

cpp 复制代码
if (_n * 10 / _tables.size() >= 7)
{
	vector<pair<K, V>> newtables(_tables.size() * 2);
	for (auto& data : _tables)
	{
		if (data._state == EXIST)
		{
			size_t hash0 = data._kv.first % newtables.size();
		}
	}
	_tables.swap(newtables)
}

当然,这样写太挫了,我们可以用另外一种写法,函数复用。

cpp 复制代码
if (_n * 10 / _tables.size() >= 7)
{
// 这⾥利⽤类似深拷⻉现代写法的思想插⼊后交换解决
	HashTable<K, V, Hash> newHT;
	newHT._tables.resize(_tables.size() * 2);
	for (auto& data : _tables)
	{
		if (data._state == EXIST)
		{
			newHt.insert(data);
		}
	}
	_tables.swap(newHT._tables);
}

此举就相当于函数复用加递归,我们创建一个新的哈希表是这个的两倍,此时我们再调用插入时就不会再走我们 if 的逻辑了,因为条件不满足,此时就会直接去插入了。

上面的操作第一个是质数,2 倍后就不是质数了。那么如何解决呢,一种方案就是上面的除法散列中我们讲的 Java HashMap 的使用 2 的整数幂,但是计算时不能直接取模的改进方法。另外一种⽅案是 sgi 版本的哈希表使用的方法,给了一个近似 2 倍的质数表,每次去质数表获取扩容后的大小。

cpp 复制代码
inline unsigned long __stl_next_prime(unsigned long n)
{
	// Note: assumes long is at least 32 bits.
	static const int __stl_num_primes = 28;
	static const unsigned long __stl_prime_list[__stl_num_primes] =
	{
		53, 97, 193, 389, 769,
		1543, 3079, 6151, 12289, 24593,
		49157, 98317, 196613, 393241, 786433,
		1572869, 3145739, 6291469, 12582917, 25165843,
		50331653, 100663319, 201326611, 402653189, 805306457,
		1610612741, 3221225473, 4294967291
	};
	const unsigned long* first = __stl_prime_list;
	const unsigned long* last = __stl_prime_list + __stl_num_primes;
	const unsigned long* pos = lower_bound(first, last, n);
	return pos == last ? *(last - 1) : *pos;
}

这种方式列举了很多近似 2 倍的质数表,此时调用 lower_bound 函数,我们传过来一个数值,他会为我们找到比这个数值大于等于的那个数值返回,这样就可以让我们能够扩 2 倍且是素数了,当然,我们的哈希表是到不了最后的那一位的,最后一位想要扩那么大都 4G 了,比内存还大了,根本不可能,所以到 4294967291 就足够了

(4)key 不能取模的问题

当 key 是 string/Date 等类型时,key 不能取模,那么我们需要给 HashTable 增加一个仿函数,这个仿函数支持把 key 转换成一个可以取模的整形,如果 key 可以转换为整形并且不容易冲突,那么这个仿函数就⽤默认参数即可,如果这个 key 不能转换为整形,我们就需要自己实现一个仿函数传给这个参数,实现这个仿函数的要求就是尽量把 key 的每值都参与到计算中,让不同的key 转换出的整形值不同。string 做哈希表的 key 非常常见,所以我们可以考虑把 string 特化一下。

cpp 复制代码
template <class K>
struct HashFunc
{
	size_t operator()(const K & key)
	{
		return (size_t)key;
	}
};

// 特化
template <>
struct HashFunc <string>
{
	// 字符串转换成整形,可以把字符ascii码相加即可
	// 但是直接相加的话,类似"abcd"和"bcad"这样的字符串计算出是相同的
	// 这⾥我们使⽤BKDR哈希的思路,⽤上次的计算结果去乘以⼀个质数,这个质数⼀般去31, 131 等效果会⽐较好
	size_t operator()(const string & key)
	{
		size_t hash = 0;
		for (auto e : key)
		{
			hash *= 131;
			hash += e;
		}
		return hash;
	}
};
template<class K, class V, class Hash = HashFunc<K>>
class HashTable
{
public:
private:
	vector<HashData<K, V>> _tables;
	size_t _n = 0; // 表中存储数据个数
};

(5)开放定址法代码实现

cpp 复制代码
template <class K>
struct HashFunc
{
	size_t operator()(const K& key)
	{
		return (size_t)key;
	}
};

template <>
struct HashFunc <string>
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (auto e : key)
		{
			hash *= 131;
			hash += e;
		}
		return hash;
	}
};

enum State
{
	EXIST,
	EMPTY,
	DELETE
};

template<class K, class V>
struct HashData
{
	pair<K, V> _kv;
	State _state = EMPTY;
};

template<class K, class V, class Hash = HashFunc<K>>
class HashTable
{
public:
	inline unsigned long __stl_next_prime(unsigned long n)
	{
		// Note: assumes long is at least 32 bits.
		static const int __stl_num_primes = 28;
		static const unsigned long __stl_prime_list[__stl_num_primes] =
		{
			53, 97, 193, 389, 769,
			1543, 3079, 6151, 12289, 24593,
			49157, 98317, 196613, 393241, 786433,
			1572869, 3145739, 6291469, 12582917, 25165843,
			50331653, 100663319, 201326611, 402653189, 805306457,
			1610612741, 3221225473, 4294967291
		};
		const unsigned long* first = __stl_prime_list;
		const unsigned long* last = __stl_prime_list +
			__stl_num_primes;
		const unsigned long* pos = lower_bound(first, last, n);
		return pos == last ? *(last - 1) : *pos;
	}
	HashTable()
	{
		_tables.resize(__stl_next_prime(0));
	}
	bool Insert(const pair<K, V>& kv)
	{
		if (Find(kv.first))
			return false;
		// 负载因⼦⼤于0.7就扩容
		if (_n * 10 / _tables.size() >= 7)
		{
			// 这⾥利⽤类似深拷⻉现代写法的思想插⼊后交换解决
			HashTable<K, V, Hash> newHT;
			newHT._tables.resize(__stl_next_prime(_tables.size() + 1));
			for (size_t i = 0; i < _tables.size(); i++)
			{
				if (_tables[i]._state == EXIST)
				{
					newHT.Insert(_tables[i]._kv);
				}
			}
			_tables.swap(newHT._tables);
		}
		Hash hash;
		size_t hash0 = hash(kv.first) % _tables.size();
		size_t hashi = hash0;
		size_t i = 1;
		while (_tables[hashi]._state == EXIST)
		{
			// 线性探测
			hashi = (hash0 + i) % _tables.size();
			// ⼆次探测就变成 +- i^2
			++i;
		}
		_tables[hashi]._kv = kv;
		_tables[hashi]._state = EXIST;
		++_n;
		return true;
	}
	HashData<K, V>* Find(const K& key)
	{
		Hash hash;
		size_t hash0 = hash(key) % _tables.size();
		size_t hashi = hash0;
		size_t i = 1;
		while (_tables[hashi]._state != EMPTY)
		{
			if (_tables[hashi]._state == EXIST
				&& _tables[hashi]._kv.first == key)
			{
				return &_tables[hashi];
			}
			// 线性探测
			hashi = (hash0 + i) % _tables.size();
			++i;
		}
		return nullptr;
	}
	bool Erase(const K& key)
	{
		HashData<K, V>* ret = Find(key);
		if (ret == nullptr)
		{
			return false;
		}
		else
		{
			ret->_state = DELETE;
			--_n;
			return true;
		}
	}
private:
	vector<HashData<K, V>> _tables;
	size_t _n = 0; // 表中存储数据个数
};

7.3、链地址法

(1)解决冲突的思路

开放定址法中所有的元素都放到哈希表⾥,链地址法中所有的数据不再直接存储在哈希表中,哈希表中存储一个指针,没有数据映射这个位置时,这个指针为空,有多个数据映射到这个位置时,我们把这些冲突的数据链接成一个链表,挂在哈希表这个位置下面,链地址法也叫做拉链法或者哈希桶。

下⾯演示 { 19, 30, 5, 36, 13, 20, 21, 12, 24, 96 } 等这一组值映射到 M = 11 的表中。

h(19) = 8, h(30) = 8, h(5) = 5, h(36) = 3, h(13) = 2, h(20) = 9, h(21) = 10, h(12) = 1, h(24) = 2, h(96) = 8。

链地址法的解决思路其实蛮简单粗暴的,但是要比开放定址法要好,我们新的数据直接连接在下标上,然后旧数据在连接到新数据后面就可以了。

最终效果:

(2)扩容

开放定址法负载因子必须小于 1,链地址法的负载因子就没有限制了,可以大于 1。负载因子越大,哈希冲突的概率越高,空间利用率越高;负载因子越小,哈希冲突的概率越低,空间利用率越低;STL 中 unordered_xxx 的最大负载因子基本控制在 1,大于 1 就扩容,我们下面实现也使用这个方式。

(3)极端场景

如果极端场景下,某个桶特别长怎么办?其实我们可以考虑使用全域散列法,这样就不容易被针对了。但是假设不是被针对了,用了全域散列法,但是偶然情况下,某个桶很长,查找效率很低怎么办?这⾥在 Java 8 的 HashMap 中当桶的长度超过一定阀值时就把链表转换成红黑树。⼀般情况下,不断扩容,单个桶很长的场景还是比较少的,下⾯我们实现就不搞这么复杂了,这个解决极端场景的思路,⼤家了解一下即可。

(4)链地址法代码实现

cpp 复制代码
template <class K>
struct HashFunc
{
	size_t operator()(const K& key)
	{
		return (size_t)key;
	}
};

// 特化
template <>
struct HashFunc <string>
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (auto e : key)
		{
			hash *= 131;
			hash += e;
		}
		return hash;
	}
};

template<class K, class V>
struct HashNode
{
	pair<K, V> _kv;
	HashNode<K, V>* _next;
	HashNode(const pair<K, V>& kv)
		:_kv(kv)
		, _next(nullptr)
	{
	}
};
template<class K, class V, class Hash = HashFunc<K>>
class HashTable
{
	typedef HashNode<K, V> Node;
	inline unsigned long __stl_next_prime(unsigned long n)
	{
		static const int __stl_num_primes = 28;
		static const unsigned long __stl_prime_list[__stl_num_primes] =
		{
		53, 97, 193, 389, 769,
		1543, 3079, 6151, 12289, 24593,
		49157, 98317, 196613, 393241, 786433,
		1572869, 3145739, 6291469, 12582917, 25165843,
		50331653, 100663319, 201326611, 402653189, 805306457,
		1610612741, 3221225473, 4294967291
		};
		const unsigned long* first = __stl_prime_list;
		const unsigned long* last = __stl_prime_list + __stl_num_primes;
		const unsigned long* pos = lower_bound(first, last, n);
		return pos == last ? *(last - 1) : *pos;
	}
public:
	HashTable()
	{
		_tables.resize(__stl_next_prime(0), nullptr);
	}
	// 拷⻉构造和赋值拷⻉需要实现深拷⻉,有兴趣的同学可以⾃⾏实现
	~HashTable()
	{
		// 依次把每个桶释放
		for (size_t i = 0; i < _tables.size(); i++)
		{
			Node* cur = _tables[i];
			while (cur)
			{
				Node* next = cur->_next;
				delete cur;
				cur = next;
			}
			_tables[i] = nullptr;
		}
	}
	bool Insert(const pair<K, V>& kv)
	{
		Hash hs;
		size_t hashi = hs(kv.first) % _tables.size();
		// 负载因⼦==1扩容
		if (_n == _tables.size())
		{
			/*HashTable<K, V> newHT;
			newHT._tables.resize(__stl_next_prime(_tables.size()+1);
			for (size_t i = 0; i < _tables.size(); i++)
			{
				Node* cur = _tables[i];
				while(cur)
				{
					newHT.Insert(cur->_kv);
					cur = cur->_next;
				}
			}
			_tables.swap(newHT._tables);*/
			// 这⾥如果使⽤上⾯的⽅法,扩容时创建新的结点,后⾯还要使⽤就结点,浪费了
	
			// 下⾯的⽅法,直接移动旧表的结点到新表,效率更好
			vector<Node*> newtables(__stl_next_prime(_tables.size() + 1), nullptr);
			for (size_t i = 0; i < _tables.size(); i++)
			{
				Node* cur = _tables[i];
				while (cur)
				{
					Node* next = cur->_next;
					// 旧表中节点,挪动新表重新映射的位置
					size_t hashi = hs(cur->_kv.first) % newtables.size();
					// 头插到新表
					cur->_next = newtables[hashi];
					newtables[hashi] = cur;
					cur = next;
				}
				_tables[i] = nullptr;
			}
			_tables.swap(newtables);
		}
		// 头插
		Node* newnode = new Node(kv);
		newnode->_next = _tables[hashi];
		_tables[hashi] = newnode;
		++_n;
		return true;
	}
	Node* Find(const K& key)
	{
		Hash hs;
		size_t hashi = hs(key) % _tables.size();

		Node* cur = _tables[hashi];
		while (cur)
		{
			if (cur->_kv.first == key)
			{
				return cur;
			}
			cur = cur->_next;
		}
		return nullptr;
	}
	bool Erase(const K& key)
	{
		Hash hs;
		size_t hashi = hs(key) % _tables.size();
		Node* prev = nullptr;
		Node* cur = _tables[hashi];
		while (cur)
		{
			if (cur->_kv.first == key)
			{
				if (prev == nullptr)
				{
					_tables[hashi] = cur->_next;
				}
				else
				{
					prev->_next = cur->_next;
				}
				delete cur;
				--_n;
				return true;
			}
			prev = cur;
			cur = cur->_next;
		}
		return false;
	}
private:
	vector<Node*> _tables; // 指针数组
	size_t _n = 0; // 表中存储数据个数
};

总结

以上便是我们的哈希表的内容啦,学完本篇内容我们可以发现其实我们哈希表的内容和我们的数学是有很大的关系的,我们主要是要尽量克服哈希冲突的问题,这个和我们的数学是息息相关的,我们能够了解是怎么实现的即可,没有必要搞懂其背后的数学原理,当然如果你感兴趣也是可以去尝试一下的。


🎇坚持到这里已经很厉害啦,辛苦啦🎇 ʕ • ᴥ • ʔ づ♡ど

相关推荐
玩镜的码农小师兄3 小时前
[从零开始面试算法] (04/100) LeetCode 136. 只出现一次的数字:哈希表与位运算的巅峰对决
c++·算法·leetcode·面试·位运算·hot100
普通网友3 小时前
哈希表:高效存储与查找的核心原理
数据结构·哈希算法·散列表·csdn
Small___ming4 小时前
【Linux基础学习】Linux Ubuntu 权限管理:从入门到精通
linux·学习·ubuntu
万粉变现经纪人4 小时前
如何解决 pip install -r requirements.txt 私有仓库认证失败 401 Unauthorized 问题
开发语言·python·scrapy·flask·beautifulsoup·pandas·pip
量子炒饭大师4 小时前
收集飞花令碎片——C语言字符函数与字符串函数
c语言·开发语言
懂得节能嘛.4 小时前
【设计模式】Java规则树重构复杂业务逻辑
java·开发语言·设计模式
tan77º4 小时前
【项目】基于多设计模式下的同步&异步日志系统 - 项目介绍与前置知识
linux·c++·设计模式
syt_biancheng4 小时前
Qt--命名,快捷键及坐标系
开发语言·qt
极地星光4 小时前
协程:深入协程机制与实现(进阶篇)
开发语言