分布式id探索

一、为什么要使用分布式id?

随着数据量增加,数据需要进行水平拆分,但表自增id无法满足唯一性;

二、分布式id的特点

1唯一性

2 趋势递增、单调递增(数据库中存放的数据结构数据从小到大有序排列),如果id不是单调递增,插入数据时为了维持平衡需要不停的做叶子节点的分裂与合并;

三、常用分布式id生成算法

1 uuid:32位16进制数字,36个字符;

优点:性能高,本地生成没有网络消耗;

缺点:过长不易于存储,信息不安全,基于MAC地址生成可能会造成MAC地址泄露

2 雪花算法:

第0位:符号位,始终为0,没用

第1~41位:用来表示时间戳,单位毫秒

第42~52位:前五位机房id,后五位机器id

第53~64位:用来表示序列号,序列号为自增,代表单台机器每秒能够产生的最大id 2 的12次方=4096;

优点:毫秒数在高位,自增序列在低位,id趋势递增;不依赖三方系统,稳定性高;

缺点:强依赖机器时钟,如果机器时钟回拨会导致重复id生成;(解决方法:缓存历史序列号,使用历史序列号直到它耗尽;等待时钟恢复;使用备用时间戳,即将上一次的时间戳加上一个安全间隔,防止重复生成;报警机制,严重时钟回拨时,人工干预;)

3 mysql用一张表专门生成id(读写磁盘网络开销大扩展性差)

4 redis生成(redis持久化会有丢失可能重复)

四、美团leaf算法

1 segment数据库方案,根据数据库中的表进行获取

批量获取分布式id,每次获取数量自定义;

缺点:id号不够随机;当批量获取的数据库id用尽时会产生毛刺现象;

2 雪花算法方案

依赖zk生成workid解决机器过多的问题;根据不同的方案解决始终回拨问题;

解决方案,新启动的机器通过拉去所有机器时间计算平均值,并与本机时间戳比较,判断当前时间戳是否符合;(缓存历史序列号,使用历史序列号直到它耗尽;等待时钟恢复;使用备用时间戳,即将上一次的时间戳加上一个安全间隔,防止重复生成;报警机制,严重时钟回拨时,人工干预;)

相关推荐
不被定义的号5 小时前
docker swarm里搭建Selenium Grid分布式测试集群,测试节点随时在线,无需反复启停,效率增倍
分布式·selenium·docker
processflow流程图5 小时前
分布式kettle调度平台- web版转换,作业编排新功能介绍
分布式·kettle二开·kettle-web·webspoon·kettle增强版·kettle web化·web kettle
点点滴滴的记录5 小时前
场景设计:设计一个分布式限流器,采用令牌桶算法,漏桶算法、滑动窗口算法实现
分布式·算法
陈老师还在写代码6 小时前
SpringBoot单机模式的极限是什么?为什么会引入分布式?
spring boot·分布式·后端
柠檬精不吃柠檬8 小时前
Git 分布式版本控制工具使用教程
分布式·git
胡八一9 小时前
kafka查看topic消息是否堆积
分布式·kafka
沉默终止9 小时前
RabbitMQ 消息顺序性保证
分布式·rabbitmq
企鹅侠客9 小时前
kafka topic是什么?partition是什么? broker是什么?
分布式·kafka·linq
刘什么洋啊Zz10 小时前
RocketMQ及和Kafka的区别
分布式·kafka·消息队列·rocketmq