数据结构--哈希表

客梦2025-12-27 9:32

一、核心概念

定义：基于散列函数（哈希函数），将键（Key）映射到数组对应下标，实现高效存取的线性数据结构。
核心目标：以近似 O(1) 的时间复杂度完成增删查操作。
核心要素

◦ 散列函数：建立键到数组下标的映射关系

◦ 哈希表数组：存储数据的主体结构

◦ 冲突解决机制：处理多个键映射到同一下标（哈希冲突）的情况

二、散列函数设计原则

确定性：同一键多次计算，得到的哈希值必须相同。
均匀性：哈希值分布均匀，尽可能减少哈希冲突。
高效性：计算速度快，时间复杂度低。
范围适配：计算出的哈希值需落在哈希表数组的下标范围内。
常用方法

◦ 直接定址法：hash(key)=a\times key+b，适合键分布连续的场景

◦ 除留余数法：hash(key)=key\ mod\ m（m 为数组长度，通常取质数），应用最广

◦ 平方取中法：取 key^2 的中间几位作为哈希值，适合键分布不规律的场景

◦ 折叠法：将键分段后叠加，适合键长度较长的场景

三、哈希冲突解决方法

（一）开放定址法

核心思想：发生冲突时，按某种规则在哈希表数组中寻找下一个空位置。
常用探测方式

◦ 线性探测：冲突后依次向后查找 hash(key)+1, hash(key)+2,...，易产生聚集现象

◦ 二次探测：冲突后按 hash(key)\pm 1^2, hash(key)\pm 2^2,... 查找，缓解聚集

◦ 双重散列：使用第二个散列函数计算探测步长，分散性更好

（二）链地址法（拉链法）

核心思想：哈希表数组的每个下标位置存储一个链表（或红黑树），冲突的元素直接链入对应链表。
优势：处理冲突简单，不易产生聚集，适合高频插入删除的场景。
优化：当链表长度超过阈值时，转为红黑树，提升查找效率（如Java的HashMap）。

（三）其他方法

• 公共溢出区法：建立基本表和溢出表，冲突元素统一存入溢出表。

• 再哈希法：冲突时使用新的散列函数重新计算哈希值，直到找到空位置。

四、关键性能指标

装填因子：\alpha=\frac{哈希表中元素个数}{数组长度}，是衡量哈希表拥挤程度的核心指标。
装填因子与性能的关系：\alpha 越小，冲突概率越低，但空间利用率低；\alpha 越大，空间利用率高，但冲突概率上升。
扩容机制：当装填因子超过阈值时，对哈希表数组进行扩容（通常扩容为原长度的2倍），并重新计算所有元素的哈希值（重哈希）。

五、常见应用

实现关联数组（如Java的HashMap、Python的dict）
数据库索引：加速数据查询
缓存系统：如Redis的哈希结构
字符串匹配：如布隆过滤器的底层基础

六、注意事项

散列函数的优劣直接决定哈希表的性能，需结合键的特征选择。
开放定址法中删除元素不能直接清空，需标记为"已删除"，避免影响后续查找。
链地址法需注意链表和红黑树的转换条件，平衡时间与空间效率。

上一篇：数据结构（一）前置知识

下一篇：在WSL2的Jupyter中正确显示中文字体seaborn覆盖plt的问题

热门推荐

01GitHub 镜像站点 02OpenCode 入门教程：介绍 · 安装 · 配置第三方 API (如 Claude)032025 Telegram 最新免费社工库机器人（LetsTG可[特殊字符]）搭建指南（含 Python 脚本）04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）05UV安装并设置国内源 06Linux下V2Ray安装配置指南 07AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 08BongoCat - 跨平台键盘猫动画工具 09网站改了域名，如何查找？10Claude Code Skills 实用使用手册