【Redis】详解一致性哈希算法

一致性哈希算法分区

是什么

一致性Hash算法背景

一致性哈希算法在1997年由麻省理工学院中提出的，设计目标是为了解决分布式缓存数据变动 和映射问题（当服务器个数发生变动时，尽量减少影响客户端到服务器的映射关系），某个机器宕机了，分母数量改变了，自然取余数不行了。

3大步骤

算法构建一致性哈希环

将节点全部放到一个虚拟的圆环上，圆环上0在2^32处重合，其节点范围在0-2^32-1

一致性哈希算法必然有个哈希函数并按照算法产生哈希值，这个算法的所有可能哈希值会构成一个全量集，这个集合可以成为一个hash空间 $0,2\^32-1$ ，这个是一个线性空间，但是在算法中，我们通过适当的逻辑控制将它首尾相连(0=2^32)，这样让它逻辑上形成了一个环形空间。它也是按照使用取模的方法，不过前面介绍的哈希取余分区取模法是对节点（服务器）的数量进行取模，而一致性哈希算法是对2^32取模（因此解决了取模数会变化的问题），简单来说，一致性哈希算法就是将整个哈希值空间组织成一个虚拟的圆环，如假设某哈希函数的值空间为0～2^32-1（即哈希值是一个32位无符号整形），整个哈希环如下图：

整个空间按顺时针方向组织，圆环的正上方的点代表0，0点右侧的第一个点代表1，以此类推，2、3、4......直到2^32-1，也就是说0点左侧的第一个点代表2^32-1，0和2^32在零点中方向重合，我们把这个由2^32个点组成的圆环称为Hash环。

服务器IP节点映射

IP 或者主机名

节点映射

将集群中各个IP节点映射到环上的某一个位置。

将各个服务器使用Hash()进行次哈希，具体可以选择服务器的IP或主机名作为关键字，这样每台机器就能确定其在哈希环上的位置。举个例子，如下图4个节点NodeA、B、C、D，经过IP地址的哈希函数计算Hash(IP)，使用IP地址哈希后在环空间的位置如下：

key落到服务器的落键规则

当我们需要存储一个kv键值对时，首先计算key的hash值（hash(key)）将这个key使用相同的哈希函数计算出哈希值，并确定此数据在环上的位置，从此位置沿环顺时针"行走"，第一台遇到的服务器就是其应该定位到的服务器，并将该键值对存储在该节点上。

举个例子，如下图中Object A和Object 两个数据对象，经过哈希计算后，在环空间上的位置如下图所示：

根据一致性哈希算法，Object A会被定位到Node B上，Object B定位到Node D上

Hash环的数据倾斜问题

一致性哈希算法在服务节点太少时，容易因为节点分布不均匀 而造成数据倾斜 的问题。

即被缓存的对象大部分集中缓存在某一台服务器上，举个例子，如果只有两台服务器，就容易出现大部分数据都存在其中一个服务器上的情况，如下图所示：

其实，搞个环也就是为了在节点数目发生改变时，尽量少的迁移数据 ，将所有的节点排列在首尾相接的Hash环上，每个key在计算后会顺时针找到邻近的储存节点存放，而当有节点加入或者退出时仅影响该节点在Hash环上顺时针相邻的后续节点。

优点

加入和删除只影响hash环中顺时针方向相邻的节点，对其他节点无影响

缺点

数据的分布和节点的位置有关，因为这些节点不是均匀的分布在哈希环上 的，所以数据在进行存储时达不到均匀分布的效果。

这就是一致性哈希算法在节点较少时会有数据倾斜的问题，因此我们有了👇 ------ 哈希槽分区

哈希槽分区

为了解决一致性哈希算法数据倾斜的问题，产生了哈希槽分区

其实质就是一个数组，数组 $0, 16383$ 形成哈希槽空间（共16384个槽位）

16384就是2^14-1

没有什么是加一层解决不了的，如果有，那就再加一层

解决均匀分配的问题，在数据和节点之间又加了一层，把这层称为哈希槽（slot），用于管理数据和节点之间的关系，就相当于节点上放的是槽，槽里放的是数据。

槽解决粒度的问题，相当于粒度调大了，便于数据的移动。哈希解决的是映射问题，使用key的哈希值来计算所在的槽，便于数据分配。

一个集群只能有16384个槽，编号0-16383(0~2^14-1)，这些槽会分配给集群中的所有主节点，分配策略没有要求。

集群会记录节点和槽的对应关系，解决了节点和槽的关系后，接下来就需要对key求哈希值，然后对16384取模，余数是几key就落入对应的槽里（HASH_SLOT=CRC16(key）mod 16384）。

以槽为单位移动数据，因为槽的数目是固定的，处理起来比较容易，这样数据移动问题就解决了。