【数据结构】Hash

Hash

散列表

基础

用于快速查找,和红黑树对比:

  1. 红黑树有序,靠二分查找减少搜索次数,时间复杂度为O(N)
  2. 散列表无序,靠key和value直接映射,时间复杂度为O(N)

组成

  1. hash函数,用于求出key值,要求快速计算、强随机分布(防止冲突)
  2. 数组,用于存储value值,其索引与key相对应。
  3. key值,用于索引到数组中的key,通过hash % 数组size算的。

冲突

冲突衡量指标,负载因子,等于实际数据量/数组容量。

  • 合理的负载因子(<1):冲突时采用单链表来链接相同的key值,如果单链表太长(比如大于200个节点),则可以转换为红黑树或堆结构;也可以采用开放寻址法,比如key重复的时候key+1,key+2,...一直找到空位为止。
  • 不合理的负载因子:如果大于1,则扩容,一般扩大两倍,重新计算hash和key值;如果小于0.1,则缩容,并重新计算hash和key。

布隆过滤器

基础

用于快速确定是否存在某个数据,本身不存储数据,节省内存空间。

组成

  1. 位图,C++中可用byte bits[N];实现,其索引用于查找key
  2. k个哈希函数
  3. key值,通过k个哈希函数 % 位图size得到k个key,并在位图里面k个位置置1

使用方式

  • 如果k个key中任一个key不存在,则必然没有这个数据;如果所有key都存在,则不一定有这个数据(因为存储多个数据,可能key值都被写入了)。
  • 通过预估数据规模n和假阳性p,可以算的位图大小m和需要的hash个数k。

分布式一致哈希

基础

主要是为了解决分布式节点的扩容问题

组成

  1. hash函数
  2. 有顺序的映射容器container,比如C++的map,结构是key1:value1
  3. key1值,用hash函数 % 2^32算得(IP:PORT:SEQ作为参数),固定哈希计算,用于解决缓存失效的问题,因为一旦新增节点,size大小改变,就要重新计算key1值的话,节点的缓存就乱了。
  4. value1值,IP:PORT:SEQ,也即服务器IP地址、端口、序号。
  5. key2值,用hash函数 % 2^32算得(用要缓存的数据算得),在容器container中寻找第一个大于等于此key2的key1值。

使用方法

  1. 要存储的数据通过hash函数 % 2^32算得key2
  2. 在容器container中寻找第一个大于等于此key2的key1值
  3. 通过key1值直接找到value1,解出节点的ip和端口,将数据存储过去

注意点

  • 为什么hash % 2^32 而不是像一般散列表一样,根据大小进行计算?(% size)。因为如果扩容, 增加服务器节点,则hash % size 计算的key2值会全部改变,会导致数据缓存位置错乱,也即缓存失效
  • value1值中的SEQ的序号有什么用,用于创建多个同一服务器的虚拟节点,这样在2^32的范围中就会充满了多个节点,数据计算的key2值能更均匀地分布在各个服务器节点中。同时当新增节点时,也会减少数据迁移的数据量。因为如果只有若干真实的服务器节点,可能多个数据都会放到同一个服务器节点中,导致失衡,也即"缓存偏移"。
  • 多个虚拟节点交错分布,当扩容/缩容/宕机导致数据迁移的时候,可以若干个服务器一起协助,而不是只把压力都放在一台服务器上,降低风险,提高效率;
相关推荐
net3m333 分钟前
一阶软件低通滤波器算法
人工智能·算法
水木流年追梦21 分钟前
大模型入门-大模型优化方法12-YaRN 长文本外推技术
人工智能·分布式·算法·正则表达式·prompt
J-Tony111 小时前
【JVM】三色标记法
java·jvm·算法
wengad1 小时前
机器学习实践理论基础|算法、模型和数据集
人工智能·算法·机器学习
梦梦代码精2 小时前
为什么这个开源的AI平台会火?有点东西。。。
人工智能·算法·机器学习·docker·开源
随意起个昵称2 小时前
线性dp-综合刷题1(Not Alone)
算法·动态规划
Lyyaoo.3 小时前
【数据结构】HashMap底层存储+扩容机制+线程安全【待更新】
数据结构·安全·哈希算法
如何原谅奋力过但无声3 小时前
【灵神高频面试题合集09-13】二叉树、二叉搜索树
数据结构·算法·leetcode
皆圥忈4 小时前
磁盘物理结构与文件系统基础讲解
linux·算法
数据仓库搬砖人4 小时前
用 LangGraph 从零搭一个客服 Agent:多轮对话 + 工具调用全流程
算法