什么是一致性Hash
一致性哈希算法在1997年由麻省理工学院提出,是一种特殊的哈希算法,目的是解决分布式缓存的问题。在移除或者添加一个服务器时,能够尽可能小地改变已存在的服务请求与处理请求服务器之间的映射关系。一致性哈希解决了简单哈希算法在分布式哈希表中存在的动态伸缩等问题。
简单Hash算法
既然一致性Hash目的是解决分布式缓存的问题,那么我们就先来看一下简单Hash算法在分布式下有什么问题?
我们知道在负载均衡算法中,我们可以根据某一个值生成Hash
(比如客户端IP
),然后再用这个Hash
值与服务器列表数量取模,最终得到客户端请求与服务器的一个对应关系,以此来均衡客户端的请求。
简单Hash
算法的问题就在于,当服务器列表产生变动时,会大量的改变客户端与服务端的对应关系,那么假如我们在服务A
上绑定了与客户端1、3
的一些信息就会丢失。
当我们新增了一台服务C
,此时再根据Hash
值与服务器数量取模时,客户端3、4
的对应关系就改变了,那么当客户端3、4
就需要重新从数据库中获取相应的数据,再放入对应服务器的缓存中。
一致性Hash如何解决分布式缓存问题?
简单Hash
方法的缺陷已经很明显,如果服务器中保存有服务请求对应的数据,那么如果重新计算请求的hash
值,会造成大量的请求被重定位到不同的服务器而造成请求所要使用的数据失效,这种情况在分布式系统中是非常糟糕的。一个设计良好的分布式系统应该具有良好的单调性,即服务器的添加与移除不会造成大量的哈希重定位,而一致性哈希恰好可以解决这个问题。
一致性哈希算法将整个哈希值空间映射成一个虚拟的圆环,整个哈希空间的取值范围为0-2的32次方-1
。整个空间按顺时针方向组织。0-2的32次方-1
在零点中方向重合。接下来也是将客户端请求使用哈希算法算出对应的hash
值,然后根据hash
值的位置沿圆环顺时针查找,第一台遇到的服务器就是所对应的处理请求服务器。当增加一台新的服务器,受影响的数据仅仅是新添加的服务器到其环空间中前一台的服务器(也就是顺着逆时针方向遇到的第一台服务器)之间的数据,其他都不会受到影响。综上所述,一致性哈希算法对于节点的增减都只需重定位环空间中的一小部分数据,具有较好的容错性和可扩展性。
假设新增一个服务C
,那么只有客户端3
的映射关系改变了,其他的都没有变。
从图就可以看出受影响的只有服务B到服务C之间的一段数据,同理,删除服务节点影响的范围也是一样的。
所以一致性Hash算法对于节点的增减都只需重定位环空间中的一小部分数据,相比简单Hash算法有很好的容错性和可扩展性。
一致性Hash算法存在的问题
数据倾斜问题
如果服务器数量比较少,比如就2
台,然后在Hash
环上计算后得到的位置又可能紧挨在一起,那么就会造成数据分布不均衡的问题,如下图,服务A
到服务B
的范围很小,服务B
到服务A
的范围则很大,那么就会有大量的请求都落在范围大的区域,而造成服务A
负载过高。
解决方式,增加虚拟节点
解决此类问题其实也很简单,如果因为服务器太少导致的分配不均衡,那么想办法让服务器变多不就可以了,所以很容易就想到了可以利用一些虚拟的节点与真实的服务器节点再做一层映射关系。
服务A:{服务A V1、服务A V2、服务A V3}
服务B:{服务B V1、服务B V2、服务B V3}
找到虚拟节点后,再由虚拟节点找到其映射的真实节点即可,并且虚拟节点越多分布就会越均衡。
脏数据问题
举个例子,现在集群中有服务A
和服务B
,客户端请求写入一个键为k
,值为1
的缓存数据到服务A
中。这时如果要更新k
的值为2
,但是服务A
恰好和客户端连接出现了问题,那这次写入请求就会写入到服务B
中。接下来服务A
和客户端的连接又恢复了,当客户端要获取k
的值时,就会获取到存在服务A
中的脏数据1
,而不是服务B中的2
。
解决方式,设置过期时间
一般只能通过设置缓存的过期时间来缓解数据不一致的问题,所以使用一致性Hash
算法时,要评估数据不一致的问题,业务上是否可以接收。