unordered系列关联式容器--哈希结构详细讲解及使用示例

unordered系列关联式容器

之前讲解在C++98中STL提供了底层为红黑树结构 的一系列关联式容器，在查询时效率可达到 l o g 2 N log_2N log2N，即最差情况下需要比较红黑树的高度次，当树中的节点非常多时，查询效率也不理想。最好的查询是，进行很少的比较次数就能够将元素找到，因此在C++11中，STL又提供了4个unordered系列的关联式容器 ，这四个容器与红黑树结构的关联式容器使用方式基本类似，只是其底层结构不同使用哈希结构。unordered_map、unordered_set、unordered_multimap和unordered_multiset

unordered_map

unordered_map是存储<key, value>键值对的关联式容器，其允许通过keys快速的索引到与其对应的value。
在unordered_map中，键值通常用于惟一地标识元素，而映射值是一个对象，其内容与此键关联。键和映射值的类型可能不同。
在内部,unordered_map没有对<kye, value>按照任何特定的顺序排序, 为了能在常数范围内找到key所对应的value，unordered_map将相同哈希值的键值对放在相同的桶中。
unordered_map容器通过key访问单个元素要比map快，但它通常在遍历元素子集的范围迭代方面效率较低。
unordered_maps实现了直接访问操作符(operator\[\])，它允许使用key作为参数直接访问value。
它的迭代器只有前向迭代器。

第三方

使用方式和map一样
但操作性能相比map更高：O(1)的复杂度

cpp 复制代码

	//使用方式和map一样
	unordered_map<int, int> m;
	//操作性能相比map更高：O(1)的复杂度
	m.insert(make_pair(1, 1));
	m[2] = 2;

不同在于map遍历出来的值是有序的而unordered_map遍历出的值是无序的
unordered_map只有正向迭代器，没有反向迭代器。

cpp 复制代码

	for (int i = 3; i < 100; ++i)
	{
		m[i] = i;
	}
	
	//相对于map/set，unordered_map/set只有正向迭代器
	//迭代器遍历,不是有序的
	unordered_map<int, int>::iterator it = m.begin();
	while (it != m.end())
	{
		cout << it->first << " ";
	}
	cout << endl;

equal_range：左闭右开的区间，查询key

由于是map，不允许Key重复，因此只输出了一个值3；如果是multimap可以有多个key值则会输出更多。

cpp 复制代码

	//equal_range：
	auto range = m.equal_range(3);
	it = range.first;
	while (it != range.second)
	{
		cout << it->first << " ";
		++it;
	}
	cout << endl;

哈希

unordered系列的关联式容器之所以效率比较高，是因为其底层使用了哈希结构。

哈希概念

顺序结构以及平衡树 中，元素关键码与其存储位置之间没有对应的关系，因此在查找一个元素时，必须要经过关键码的多次比较。顺序查找时间复杂度为O(N)，平衡树中为树的高度，即O( l o g 2 N log_2 N log2N) ，搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法：可以不经过任何比较，一次直接从表中得到要搜索的元素。
如果构造一种存储结构，通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系，那么在查找时通过该函数可以很快找到该元素。

当向该结构中：

插入元素

根据待插入元素的关键码，以此函数计算出该元素的存储位置并按此位置进行存放

搜索元素

对元素的关键码进行同样的计算，把求得的函数值当做元素的存储位置，在结构中按此位置取元素比较，若关键码相等，则搜索成功

该方式即为哈希(散列)方法，哈希方法中使用的转换函数称为哈希(散列)函数，构造出来的结构称为哈希表(Hash Table)(或者称散列表)

哈希函数

直接定址法：

kx+b ：适用于小范围数据的位置计算。如果数据范围过大会造成空间浪费。

除留余数法：

x%空间大小：通用

例如：数据集合{1，7，6，4，5，9}；

哈希函数设置为：hash(key) = key % capacity; capacity为存储元素底层空间总的大小。

哈希冲突

对于两个数据元素的关键字 k i k_i ki和 k j k_j kj(i != j)，有 k i k_i ki != k j k_j kj，但有：Hash( k i k_i ki) ==Hash( k j k_j kj)，即：不同关键字通过相同哈希哈数计算出相同的哈希地址 ，该种现象称为哈希冲突或哈希碰撞。如上图4和14的哈希地址相同。

把具有不同关键码而具有相同哈希地址的数据元素称为"同义词"。

解决哈希冲突

闭散列：

线性探测
从计算的哈希位置开始，找第一个空闲的位置，存放数据。

cpp 复制代码

//记录位置状态（哈希表内的数据删除相当于伪删除，因为查询数据如果查找到空余位就会停止查找，比如5，15，25，把15删掉后，查询25时走到15位置发现空余，会停止查找，因此在删除15时不能直接删除）
enum STATE
{
	EXIST,	//存在
	DELETE,	//删除
	EMPTY	//空
};

template <class K, class V>
struct hashNode
{
	pair<k, V> _kv;
	STATE _state = EMPTY;
};

//顺序表实现hash
template <class K, class V>
class HashTable
{
public:
	typedef HashNode<K, V> Node;

	HashTable(size_t n = 10)
		:_hTable(n)
		, _size(0)
	{}

	bool insert(const pair<K, V>& kv)
	{
		//0.检查容量
		checkCapacity();
		//1.计算哈希位置
		int idx = kv.first % _hTable.size();

		//2.判断key是否存在
		while (_hTable[idx]._state != EMPTY)
		{
			//如果当前位置数据有效，且key相同，插入失败
			if (_hTable[idx]._state == EXIST && kv.first == _hTable[idx]._kv.first)
			{
				return false;
			}
			//继续搜索
			++idx;
			if (idx == _hTable.size())
				idx = 0;
		}
		//插入
		_hTable[idx] = kv;
		_hTable[idx]._state = EXIST;
		++_size;
		
		return true;
	}

	void checkCapacity()
	{
		//负载因子：<1 有效元素个数/容量大小
		//负载因子越小可存储的元素就越多，可也浪费的越多，因此权衡取：0.7
		if (_hTable.size() == 0 || _size * 10 / _hTable.size() >= 7)
		{
			//开新表
			int newC = _hTable.size() == 0 ? 10 : 2 * _hTable.size();
			HashTable<K, V> newHt(newC);

			for (int i = 0; i < _hTable.size(); ++i)
			{
				//插入状态为exist的数据
				if (_hTable[i]._state == EXIST)
				{
					newHt.insert(_hTable[i]._kv);
				}
			}
			Swap(newHt);
		}
	}

	void Swap(HashTable<K, V>& Ht)
	{
		swap(_hTable, Ht._hTable);
		swap(_size, Ht._size);
	}

	Node* find(const K& key)
	{
		//计算位置
		int idx = key % _hTable.size();
		while (_hTable[idx]._state != EMPTY)
		{
			if (_hTable[idx]._state == EXIST && key == _hTable[idx]._kv.first)
			{
				return &_hTable[idx];
			}
			++idx;
			if (idx == _hTable.size())
			{
				idx = 0;
			}
		}
		return nullptr;
	}

	bool erase(const K& key)
	{
		Node* node = find(key);
		if (node)
		{
			//假删除
			--_size;
			node->_state = DELETE;
			return true;
		}
		return false;
	}

private:
	vector<Node> _hTable;
	size_t _size;	//有效元素的个数
};

void test()
{
	HashTable<int, int> ht;
	ht.insert(make_pair(1, 1));
	ht.insert(make_pair(14, 14));
	ht.insert(make_pair(16, 16));
	ht.insert(make_pair(11, 11));

	cout << ht.erase(11) << endl;
	cout << ht.erase(100) << endl;
}

二次探测

开散列：

持续更新~~

unordered系列关联式容器--哈希结构详细讲解及使用示例

目录