分布式id探索

一、为什么要使用分布式id?

随着数据量增加,数据需要进行水平拆分,但表自增id无法满足唯一性;

二、分布式id的特点

1唯一性

2 趋势递增、单调递增(数据库中存放的数据结构数据从小到大有序排列),如果id不是单调递增,插入数据时为了维持平衡需要不停的做叶子节点的分裂与合并;

三、常用分布式id生成算法

1 uuid:32位16进制数字,36个字符;

优点:性能高,本地生成没有网络消耗;

缺点:过长不易于存储,信息不安全,基于MAC地址生成可能会造成MAC地址泄露

2 雪花算法:

第0位:符号位,始终为0,没用

第1~41位:用来表示时间戳,单位毫秒

第42~52位:前五位机房id,后五位机器id

第53~64位:用来表示序列号,序列号为自增,代表单台机器每秒能够产生的最大id 2 的12次方=4096;

优点:毫秒数在高位,自增序列在低位,id趋势递增;不依赖三方系统,稳定性高;

缺点:强依赖机器时钟,如果机器时钟回拨会导致重复id生成;(解决方法:缓存历史序列号,使用历史序列号直到它耗尽;等待时钟恢复;使用备用时间戳,即将上一次的时间戳加上一个安全间隔,防止重复生成;报警机制,严重时钟回拨时,人工干预;)

3 mysql用一张表专门生成id(读写磁盘网络开销大扩展性差)

4 redis生成(redis持久化会有丢失可能重复)

四、美团leaf算法

1 segment数据库方案,根据数据库中的表进行获取

批量获取分布式id,每次获取数量自定义;

缺点:id号不够随机;当批量获取的数据库id用尽时会产生毛刺现象;

2 雪花算法方案

依赖zk生成workid解决机器过多的问题;根据不同的方案解决始终回拨问题;

解决方案,新启动的机器通过拉去所有机器时间计算平均值,并与本机时间戳比较,判断当前时间戳是否符合;(缓存历史序列号,使用历史序列号直到它耗尽;等待时钟恢复;使用备用时间戳,即将上一次的时间戳加上一个安全间隔,防止重复生成;报警机制,严重时钟回拨时,人工干预;)

相关推荐
孟意昶6 小时前
Doris专题31-SQL手册-基础元素
大数据·数据库·数据仓库·分布式·sql·知识图谱·doris
2603_954708318 小时前
交直流混合微电网架构:拓扑优化与功率交互设计
人工智能·分布式·物联网·架构·系统架构·能源
juniperhan9 小时前
Flink 系列第12篇:Flink 维表关联详解
大数据·数据仓库·分布式·flink
Evand J11 小时前
【雷达跟踪代码介绍】基于matlab卡尔曼滤波器雷达多目标跟踪(双雷达 多目标 分布式融合)
分布式·matlab·目标跟踪·多目标跟踪·雷达跟踪
zz07232013 小时前
Seata ——微服务分布式事务
分布式·微服务·架构·seata
小江的记录本14 小时前
【分布式】分布式系统核心知识体系:CAP定理、BASE理论与核心挑战
java·前端·网络·分布式·后端·python·安全
Roselind_Yi14 小时前
云计算实验实操|Hadoop伪分布式部署+MapReduce编程实践(超详细图文版)
大数据·hadoop·经验分享·笔记·分布式·数据挖掘·云计算
是垚不是土14 小时前
Kafka 故障排查周期长?试试 Kdoctor
linux·运维·分布式·ai·kafka·运维开发
小江的记录本15 小时前
【分布式】分布式一致性协议:2PC/3PC、Paxos、Raft、ZAB 核心原理、区别(2026必考Raft)
java·前端·分布式·后端·安全·面试·系统架构
小江的记录本17 小时前
【分布式】分布式核心组件——分布式锁:Redis/ZooKeeper/etcd 实现方案(附全方位对比表)、优缺点、Redlock、时钟回拨问题
java·网络·redis·分布式·后端·zookeeper·架构