76、分布式id生成方案

分布式id生成方案

一、uuid

1,当前日期和时间 时间戳

2,时钟序列。 计数器

3,全局唯一的IEEE机器识别号,如果有网卡,从网卡MAC地址获得,没有网卡以其他方式获得。

优点:

代码简单,性能好(本地生成,没有网络消耗),保证唯一(相对而言,重复概率极低可以忽略)

缺点:

  • 每次生成的ID都是无序的,而且不是全数字,且无法保证趋势递增。
  • UUID生成的是字符串,字符串存储性能差,查询效率慢,写的时候由于不能产生顺序的append操作,需要进行insert操作,导致频繁的页分裂,这种操作在记录占用空间比较大的情况下,性能下降比较大,还会增加读取磁盘次数
  • UUID长度过长,不适用于存储,耗费数据库性能。
  • ID无一定业务含义,可读性差。
  • 有信息安全问题,有可能泄露mac地址

二、数据库自增序列

1、单机模式:

优点:

  • 实现简单,依靠数据库即可,成本小。
  • ID数字化,单调自增,满足数据库存储和查询性能。
  • 具有一定的业务可读性。(结合业务code)

缺点:

  • 强依赖DB,存在单点问题,如果数据库宕机,则业务不可用。
  • DB生成ID性能有限,单点数据库压力大,无法扛高并发场景。
  • 信息安全问题,比如暴露订单量,ur1查询改一下id查到别人的订单

2、数据库高可用

多主模式做负载,基于序列的起始值和步长设置,不同的初始值,相同的步长,步长大于节点数

优点:

解决了TD生成的单点问题,同时平衡了负载。

缺点:

  • 系统扩容困难:系统定义好步长之后,增加机器之后调整步长困难。
  • 数据库压力大: 每次获取一个ID都必须读写一次数据库。
  • 主从同步的时候: 电商下单->支付insert master db select数据 ,因为数据同步延迟导致查不到这个数据。加cache(不是最好的解决方式)数据要求比较严谨的话查master主库。

三、Leaf-segment

采用每次获取一个ID区间段的方式来解决,区间段用完之后再去数据库获取新的号段,这样一来可以大大减轻数据库的压力

核心字段: biz_tag,max_id,step

biz_tag 用来区分业务,max_id 表示该biz_tag 目前所被分配的ID号段的最大值,step 表示每次分配的号段长度,原来每次获取ID都要访问数据库,现在只需要把step设置的足够合理如1000,那么现在可以在1000个ID用完之后再去访问数据库

优点:

  • 扩张灵活,性能强能够撑起大部分业务场景。
  • ID号码是趋势递增的,满足数据库存储和查询性能要求。
  • 可用性高,即使ID生成服务器不可用,也能够使得业务在短时间内可用,为排查问题争取时间。

缺点:

可能存在多个节点同时请求ID区间的情况,依赖DB

双buffer:将获取一个号段的方式优化成获取两个号段,在一个号段用完之后不用立马去更新号段,还有一个缓存段备用,这样能够有效解决这种冲突问题,而且采用双buffer的方式,在当前号段消耗了10%的时候就去检查下一个号段有没有准备好,如果没有准备好就去更新下一个号段,当当前号段用完了就切换到下一个已经缓存好的号段去使用,同时在下一个号段消耗到10%的时候,又去检测下一个号段有没有准备好,如此往复。

优点:

基于JVM存储双buffer的号段,减少了数据库查询,减少了网络依赖,效率更高。

缺点:
segment号段长度是固定的,业务量大时可能会频繁更新号段,因为原本分配的号段会一下用完如果号段长度设置的过长,但凡缓存中有号段没有消耗完,其他节点重新获取的号段与之前相比可能跨度会很大。动态调整step

四、基于redis、mongodb、zk等中间件生成

五、雪花算法

生成一个64bit的整性数字

第一位符号位固定为0,41位时间戳,10位workId,12位序列号

位数可以有不同实现
优点;

  • 每个毫秒值包含的ID值很多,不够可以变动位数来增加,性能佳(依赖workId的实现)。
  • 时间戳值在高位,中间是固定的机器码,自增的序列在低位,整个ID是趋势递增的。
  • 能够根据业务场景数据库节点布置灵活挑战bit位划分,灵活度高。

缺点

强依赖于机器时钟,如果时钟回拨,会导致重复的ID生成,所以一般基于此的算法发现时钟回拨,都会抛异常处理,阻止ID生成,这可能导致服务不可用。

相关推荐
禁默1 小时前
打破集群通信“内存墙”:手把手教你用 CANN SHMEM 重构 AIGC 分布式算子
分布式·重构·aigc
惊讶的猫2 小时前
rabbitmq初步介绍
分布式·rabbitmq
小镇敲码人3 小时前
华为CANN框架中HCCL仓库的全面解析:分布式通信的引擎
分布式·华为
User_芊芊君子3 小时前
【分布式训练】CANN SHMEM跨设备内存通信库:构建高效多机多卡训练的关键组件
分布式·深度学习·神经网络·wpf
酷酷的崽7983 小时前
CANN 开源生态解析(四):`cann-dist-train` —— 构建高效可扩展的分布式训练引擎
分布式·开源
惊讶的猫4 小时前
AMQP 与 RabbitMQ 四大模型
分布式·rabbitmq
灰子学技术5 小时前
istio从0到1:如何解决分布式配置同步问题
分布式·云原生·istio
小马爱打代码5 小时前
ZooKeeper:入门实战
分布式·zookeeper·云原生
永远都不秃头的程序员(互关)6 小时前
CANN赋能AIGC分布式训练:硬核通信,加速大模型智能生成新纪元
分布式·aigc
杜子不疼.7 小时前
CANN集合通信库HCCL的大规模分布式训练通信优化与拓扑感知实践
分布式