一、核心概念
-
定义:基于散列函数(哈希函数),将键(Key)映射到数组对应下标,实现高效存取的线性数据结构。
-
核心目标:以近似 O(1) 的时间复杂度完成增删查操作。
-
核心要素
◦ 散列函数:建立键到数组下标的映射关系
◦ 哈希表数组:存储数据的主体结构
◦ 冲突解决机制:处理多个键映射到同一下标(哈希冲突)的情况
二、散列函数设计原则
-
确定性:同一键多次计算,得到的哈希值必须相同。
-
均匀性:哈希值分布均匀,尽可能减少哈希冲突。
-
高效性:计算速度快,时间复杂度低。
-
范围适配:计算出的哈希值需落在哈希表数组的下标范围内。
-
常用方法
◦ 直接定址法:hash(key)=a\times key+b,适合键分布连续的场景
◦ 除留余数法:hash(key)=key\ mod\ m(m 为数组长度,通常取质数),应用最广
◦ 平方取中法:取 key^2 的中间几位作为哈希值,适合键分布不规律的场景
◦ 折叠法:将键分段后叠加,适合键长度较长的场景
三、哈希冲突解决方法
(一)开放定址法
-
核心思想:发生冲突时,按某种规则在哈希表数组中寻找下一个空位置。
-
常用探测方式
◦ 线性探测:冲突后依次向后查找 hash(key)+1, hash(key)+2,...,易产生聚集现象
◦ 二次探测:冲突后按 hash(key)\pm 1^2, hash(key)\pm 2^2,... 查找,缓解聚集
◦ 双重散列:使用第二个散列函数计算探测步长,分散性更好
(二)链地址法(拉链法)
-
核心思想:哈希表数组的每个下标位置存储一个链表(或红黑树),冲突的元素直接链入对应链表。
-
优势:处理冲突简单,不易产生聚集,适合高频插入删除的场景。
-
优化:当链表长度超过阈值时,转为红黑树,提升查找效率(如Java的HashMap)。
(三)其他方法
• 公共溢出区法:建立基本表和溢出表,冲突元素统一存入溢出表。
• 再哈希法:冲突时使用新的散列函数重新计算哈希值,直到找到空位置。
四、关键性能指标
-
装填因子:\alpha=\frac{哈希表中元素个数}{数组长度},是衡量哈希表拥挤程度的核心指标。
-
装填因子与性能的关系:\alpha 越小,冲突概率越低,但空间利用率低;\alpha 越大,空间利用率高,但冲突概率上升。
-
扩容机制:当装填因子超过阈值时,对哈希表数组进行扩容(通常扩容为原长度的2倍),并重新计算所有元素的哈希值(重哈希)。
五、常见应用
-
实现关联数组(如Java的HashMap、Python的dict)
-
数据库索引:加速数据查询
-
缓存系统:如Redis的哈希结构
-
字符串匹配:如布隆过滤器的底层基础
六、注意事项
-
散列函数的优劣直接决定哈希表的性能,需结合键的特征选择。
-
开放定址法中删除元素不能直接清空,需标记为"已删除",避免影响后续查找。
-
链地址法需注意链表和红黑树的转换条件,平衡时间与空间效率。