【数据结构】Hash

SilentSlot2026-04-04 20:34

Hash

- 散列表
- - 基础
  - 组成
  - 冲突
- 布隆过滤器
- 分布式一致哈希
- - 基础
  - 组成
  - 使用方法
  - 注意点

散列表

基础

用于快速查找，和红黑树对比：

红黑树有序，靠二分查找减少搜索次数，时间复杂度为O(N)
散列表无序，靠key和value直接映射，时间复杂度为O(N)

组成

hash函数，用于求出key值，要求快速计算、强随机分布（防止冲突）
数组，用于存储value值，其索引与key相对应。
key值，用于索引到数组中的key，通过hash % 数组size算的。

冲突

冲突衡量指标，负载因子，等于实际数据量/数组容量。

合理的负载因子(<1)：冲突时采用单链表来链接相同的key值，如果单链表太长（比如大于200个节点），则可以转换为红黑树或堆结构；也可以采用开放寻址法，比如key重复的时候key+1，key+2，...一直找到空位为止。
不合理的负载因子：如果大于1，则扩容，一般扩大两倍，重新计算hash和key值；如果小于0.1，则缩容，并重新计算hash和key。

布隆过滤器

基础

用于快速确定是否存在某个数据，本身不存储数据，节省内存空间。

组成

位图，C++中可用byte bits[N];实现，其索引用于查找key
k个哈希函数
key值，通过k个哈希函数 % 位图size得到k个key，并在位图里面k个位置置1

使用方式

如果k个key中任一个key不存在，则必然没有这个数据；如果所有key都存在，则不一定有这个数据（因为存储多个数据，可能key值都被写入了）。
通过预估数据规模n和假阳性p，可以算的位图大小m和需要的hash个数k。

分布式一致哈希

基础

主要是为了解决分布式节点的扩容问题

组成

hash函数
有顺序的映射容器container，比如C++的map，结构是key1:value1
key1值，用hash函数 % 2^32算得（IP:PORT:SEQ作为参数），固定哈希计算，用于解决缓存失效的问题，因为一旦新增节点，size大小改变，就要重新计算key1值的话，节点的缓存就乱了。
value1值，IP:PORT:SEQ，也即服务器IP地址、端口、序号。
key2值，用hash函数 % 2^32算得（用要缓存的数据算得），在容器container中寻找第一个大于等于此key2的key1值。

使用方法

要存储的数据通过hash函数 % 2^32算得key2
在容器container中寻找第一个大于等于此key2的key1值
通过key1值直接找到value1，解出节点的ip和端口，将数据存储过去

注意点

为什么hash % 2^32 而不是像一般散列表一样，根据大小进行计算？（% size）。因为如果扩容，增加服务器节点，则hash % size 计算的key2值会全部改变，会导致数据缓存位置错乱，也即缓存失效。
value1值中的SEQ的序号有什么用，用于创建多个同一服务器的虚拟节点，这样在2^32的范围中就会充满了多个节点，数据计算的key2值能更均匀地分布在各个服务器节点中。同时当新增节点时，也会减少数据迁移的数据量。因为如果只有若干真实的服务器节点，可能多个数据都会放到同一个服务器节点中，导致失衡，也即"缓存偏移"。
多个虚拟节点交错分布，当扩容/缩容/宕机导致数据迁移的时候，可以若干个服务器一起协助，而不是只把压力都放在一台服务器上，降低风险，提高效率；

上一篇：Flowable 从流程定义到审批结束全链路说明

下一篇：浏览器的 JS 模块化支持观察记录

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？092026 年 AI 大模型 & AI 编程工具实战全总结 102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？