【数据结构】Hash

Hash

散列表

基础

用于快速查找,和红黑树对比:

  1. 红黑树有序,靠二分查找减少搜索次数,时间复杂度为O(N)
  2. 散列表无序,靠key和value直接映射,时间复杂度为O(N)

组成

  1. hash函数,用于求出key值,要求快速计算、强随机分布(防止冲突)
  2. 数组,用于存储value值,其索引与key相对应。
  3. key值,用于索引到数组中的key,通过hash % 数组size算的。

冲突

冲突衡量指标,负载因子,等于实际数据量/数组容量。

  • 合理的负载因子(<1):冲突时采用单链表来链接相同的key值,如果单链表太长(比如大于200个节点),则可以转换为红黑树或堆结构;也可以采用开放寻址法,比如key重复的时候key+1,key+2,...一直找到空位为止。
  • 不合理的负载因子:如果大于1,则扩容,一般扩大两倍,重新计算hash和key值;如果小于0.1,则缩容,并重新计算hash和key。

布隆过滤器

基础

用于快速确定是否存在某个数据,本身不存储数据,节省内存空间。

组成

  1. 位图,C++中可用byte bits[N];实现,其索引用于查找key
  2. k个哈希函数
  3. key值,通过k个哈希函数 % 位图size得到k个key,并在位图里面k个位置置1

使用方式

  • 如果k个key中任一个key不存在,则必然没有这个数据;如果所有key都存在,则不一定有这个数据(因为存储多个数据,可能key值都被写入了)。
  • 通过预估数据规模n和假阳性p,可以算的位图大小m和需要的hash个数k。

分布式一致哈希

基础

主要是为了解决分布式节点的扩容问题

组成

  1. hash函数
  2. 有顺序的映射容器container,比如C++的map,结构是key1:value1
  3. key1值,用hash函数 % 2^32算得(IP:PORT:SEQ作为参数),固定哈希计算,用于解决缓存失效的问题,因为一旦新增节点,size大小改变,就要重新计算key1值的话,节点的缓存就乱了。
  4. value1值,IP:PORT:SEQ,也即服务器IP地址、端口、序号。
  5. key2值,用hash函数 % 2^32算得(用要缓存的数据算得),在容器container中寻找第一个大于等于此key2的key1值。

使用方法

  1. 要存储的数据通过hash函数 % 2^32算得key2
  2. 在容器container中寻找第一个大于等于此key2的key1值
  3. 通过key1值直接找到value1,解出节点的ip和端口,将数据存储过去

注意点

  • 为什么hash % 2^32 而不是像一般散列表一样,根据大小进行计算?(% size)。因为如果扩容, 增加服务器节点,则hash % size 计算的key2值会全部改变,会导致数据缓存位置错乱,也即缓存失效
  • value1值中的SEQ的序号有什么用,用于创建多个同一服务器的虚拟节点,这样在2^32的范围中就会充满了多个节点,数据计算的key2值能更均匀地分布在各个服务器节点中。同时当新增节点时,也会减少数据迁移的数据量。因为如果只有若干真实的服务器节点,可能多个数据都会放到同一个服务器节点中,导致失衡,也即"缓存偏移"。
  • 多个虚拟节点交错分布,当扩容/缩容/宕机导致数据迁移的时候,可以若干个服务器一起协助,而不是只把压力都放在一台服务器上,降低风险,提高效率;
相关推荐
罗西的思考5 小时前
机器人 / 强化学习】HIL-SERL:人类在环驱动的具身智能进化框架
人工智能·算法·机器学习
CSharp精选营7 小时前
关系型 vs 非关系型:从原理到选型,一文搞定数据库核心分类
数据结构·nosql·关系型数据库·非关系型数据库·技术选型
美团技术团队8 小时前
LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
人工智能·算法
To_OC1 天前
LC 207 课程表:刚学图论那会儿,我连这是拓扑排序都没看出来
javascript·算法·leetcode
To_OC1 天前
LC 208 实现 Trie 前缀树:曾被名字劝退,写完发现是送分题
javascript·算法·leetcode
BadBadBad__AK1 天前
线段树维护区间 k 次方和
c++·数学·算法·stl
_清歌2 天前
DSpark 深度解读:DeepSeek-V4 如何用「半自回归」把推理速度提升 85%
算法
统计实现局2 天前
SVD 的三步走:双对角化、Givens 收敛、排序
算法
躬行见万象2 天前
《VLA 系列》UniLab 强化训练 | G1 机器人 |复现
算法