数据结构--哈希表

一、核心概念

  1. 定义:基于散列函数(哈希函数),将键(Key)映射到数组对应下标,实现高效存取的线性数据结构。

  2. 核心目标:以近似 O(1) 的时间复杂度完成增删查操作。

  3. 核心要素

◦ 散列函数:建立键到数组下标的映射关系

◦ 哈希表数组:存储数据的主体结构

◦ 冲突解决机制:处理多个键映射到同一下标(哈希冲突)的情况

二、散列函数设计原则

  1. 确定性:同一键多次计算,得到的哈希值必须相同。

  2. 均匀性:哈希值分布均匀,尽可能减少哈希冲突。

  3. 高效性:计算速度快,时间复杂度低。

  4. 范围适配:计算出的哈希值需落在哈希表数组的下标范围内。

  5. 常用方法

◦ 直接定址法:hash(key)=a\times key+b,适合键分布连续的场景

◦ 除留余数法:hash(key)=key\ mod\ m(m 为数组长度,通常取质数),应用最广

◦ 平方取中法:取 key^2 的中间几位作为哈希值,适合键分布不规律的场景

◦ 折叠法:将键分段后叠加,适合键长度较长的场景

三、哈希冲突解决方法

(一)开放定址法

  1. 核心思想:发生冲突时,按某种规则在哈希表数组中寻找下一个空位置。

  2. 常用探测方式

◦ 线性探测:冲突后依次向后查找 hash(key)+1, hash(key)+2,...,易产生聚集现象

◦ 二次探测:冲突后按 hash(key)\pm 1^2, hash(key)\pm 2^2,... 查找,缓解聚集

◦ 双重散列:使用第二个散列函数计算探测步长,分散性更好

(二)链地址法(拉链法)

  1. 核心思想:哈希表数组的每个下标位置存储一个链表(或红黑树),冲突的元素直接链入对应链表。

  2. 优势:处理冲突简单,不易产生聚集,适合高频插入删除的场景。

  3. 优化:当链表长度超过阈值时,转为红黑树,提升查找效率(如Java的HashMap)。

(三)其他方法

• 公共溢出区法:建立基本表和溢出表,冲突元素统一存入溢出表。

• 再哈希法:冲突时使用新的散列函数重新计算哈希值,直到找到空位置。

四、关键性能指标

  1. 装填因子:\alpha=\frac{哈希表中元素个数}{数组长度},是衡量哈希表拥挤程度的核心指标。

  2. 装填因子与性能的关系:\alpha 越小,冲突概率越低,但空间利用率低;\alpha 越大,空间利用率高,但冲突概率上升。

  3. 扩容机制:当装填因子超过阈值时,对哈希表数组进行扩容(通常扩容为原长度的2倍),并重新计算所有元素的哈希值(重哈希)。

五、常见应用

  1. 实现关联数组(如Java的HashMap、Python的dict)

  2. 数据库索引:加速数据查询

  3. 缓存系统:如Redis的哈希结构

  4. 字符串匹配:如布隆过滤器的底层基础

六、注意事项

  1. 散列函数的优劣直接决定哈希表的性能,需结合键的特征选择。

  2. 开放定址法中删除元素不能直接清空,需标记为"已删除",避免影响后续查找。

  3. 链地址法需注意链表和红黑树的转换条件,平衡时间与空间效率。

相关推荐
凉、介29 分钟前
别再把 PCIe 的 inbound/outbound、iATU 和 eDMA 混为一谈
linux·笔记·学习·嵌入式·pcie
田梓燊1 小时前
2026/4/11 leetcode 3741
数据结构·算法·leetcode
葳_人生_蕤1 小时前
hot100——栈和队列
数据结构
雷工笔记3 小时前
MES / WMS / AGV 交互时序图及生产管理模块界面设计清单
人工智能·笔记
大邳草民3 小时前
Python 中 global 与 nonlocal 的语义与机制
开发语言·笔记·python
landuochong2003 小时前
claude-obsidian 再升级
人工智能·笔记·claudecode
CheerWWW4 小时前
C++学习笔记——线程、计时器、多维数组、排序
c++·笔记·学习
ljt27249606614 小时前
Compose笔记(七十六)--拍照预览
笔记·android jetpack
ZC跨境爬虫4 小时前
dankoe视频笔记:如何培养对自己喜欢之事的痴迷感
人工智能·笔记·搜索引擎
Meme Buoy4 小时前
18.补充数学1:生成树-最短路径-最大流量-线性规划
数据结构·算法