【数据结构】Hash

Hash

散列表

基础

用于快速查找,和红黑树对比:

  1. 红黑树有序,靠二分查找减少搜索次数,时间复杂度为O(N)
  2. 散列表无序,靠key和value直接映射,时间复杂度为O(N)

组成

  1. hash函数,用于求出key值,要求快速计算、强随机分布(防止冲突)
  2. 数组,用于存储value值,其索引与key相对应。
  3. key值,用于索引到数组中的key,通过hash % 数组size算的。

冲突

冲突衡量指标,负载因子,等于实际数据量/数组容量。

  • 合理的负载因子(<1):冲突时采用单链表来链接相同的key值,如果单链表太长(比如大于200个节点),则可以转换为红黑树或堆结构;也可以采用开放寻址法,比如key重复的时候key+1,key+2,...一直找到空位为止。
  • 不合理的负载因子:如果大于1,则扩容,一般扩大两倍,重新计算hash和key值;如果小于0.1,则缩容,并重新计算hash和key。

布隆过滤器

基础

用于快速确定是否存在某个数据,本身不存储数据,节省内存空间。

组成

  1. 位图,C++中可用byte bits[N];实现,其索引用于查找key
  2. k个哈希函数
  3. key值,通过k个哈希函数 % 位图size得到k个key,并在位图里面k个位置置1

使用方式

  • 如果k个key中任一个key不存在,则必然没有这个数据;如果所有key都存在,则不一定有这个数据(因为存储多个数据,可能key值都被写入了)。
  • 通过预估数据规模n和假阳性p,可以算的位图大小m和需要的hash个数k。

分布式一致哈希

基础

主要是为了解决分布式节点的扩容问题

组成

  1. hash函数
  2. 有顺序的映射容器container,比如C++的map,结构是key1:value1
  3. key1值,用hash函数 % 2^32算得(IP:PORT:SEQ作为参数),固定哈希计算,用于解决缓存失效的问题,因为一旦新增节点,size大小改变,就要重新计算key1值的话,节点的缓存就乱了。
  4. value1值,IP:PORT:SEQ,也即服务器IP地址、端口、序号。
  5. key2值,用hash函数 % 2^32算得(用要缓存的数据算得),在容器container中寻找第一个大于等于此key2的key1值。

使用方法

  1. 要存储的数据通过hash函数 % 2^32算得key2
  2. 在容器container中寻找第一个大于等于此key2的key1值
  3. 通过key1值直接找到value1,解出节点的ip和端口,将数据存储过去

注意点

  • 为什么hash % 2^32 而不是像一般散列表一样,根据大小进行计算?(% size)。因为如果扩容, 增加服务器节点,则hash % size 计算的key2值会全部改变,会导致数据缓存位置错乱,也即缓存失效
  • value1值中的SEQ的序号有什么用,用于创建多个同一服务器的虚拟节点,这样在2^32的范围中就会充满了多个节点,数据计算的key2值能更均匀地分布在各个服务器节点中。同时当新增节点时,也会减少数据迁移的数据量。因为如果只有若干真实的服务器节点,可能多个数据都会放到同一个服务器节点中,导致失衡,也即"缓存偏移"。
  • 多个虚拟节点交错分布,当扩容/缩容/宕机导致数据迁移的时候,可以若干个服务器一起协助,而不是只把压力都放在一台服务器上,降低风险,提高效率;
相关推荐
knight_9___20 分钟前
大模型project面试4
人工智能·python·深度学习·算法·面试·agent
l1t25 分钟前
DeepSeek总结的欢迎来到 ORDER BY 丛林
数据库·算法
谙弆悕博士25 分钟前
【附C源码】二叉搜索树的C语言实现
c语言·开发语言·数据结构·算法·二叉树·项目实战·数据结构与算法
宵时待雨39 分钟前
回溯算法专题2:二叉树中的深搜
开发语言·数据结构·c++·笔记·算法·深度优先
刀法如飞1 小时前
JavaScript 数组去重的 20 种实现方式,学会用不同思路解决问题
前端·javascript·算法
洛水水1 小时前
【力扣100题】46.单词拆分
算法·leetcode·职场和发展
MicroTech20251 小时前
量子安全赋能协同智能,微算法科技(NASDAQ :MLGO)研发PQS-BFL后量子区块链联邦学习框架
科技·算法·安全
平行侠2 小时前
A19 工业设备故障决策树智能诊断系统
算法·决策树·机器学习
澈2072 小时前
平衡二叉树:AVL与红黑树终极对比
数据结构·c++·红黑树
小英雄大肚腩丶2 小时前
RabbitMQ消息队列
java·数据结构·spring boot·分布式·rabbitmq·java-rabbitmq