雪花算法:高并发场景下的分布式唯一ID生成方案解析

引言

雪花算法将64位整数划分为时间戳(41位)、机器ID(10位)和序列号(12位),结合高位位移运算实现毫秒级ID生成,单机每秒可承载超400万次请求。其核心逻辑通过时间有序性确保ID单调递增,同时借助机器ID的分段设计支持横向扩展。然而,时钟回拨问题可能威胁算法的可靠性,为此衍生了多种容错策略,例如短暂等待、备份机器切换及容错序列复用等,兼顾了灵活性与鲁棒性。

雪花算法

  • 符号位:始终为 0,占用 1 位。
  • 时间戳:精确到毫秒级,占用 41 位。
  • 机器 ID:机器 ID 可以划分为两部分,占用 10 位。其中 5 位是数据中心 ID,另外 5 位是机器 ID。
  • 序列号:序列号可以精确控制单位时间内最大生成的 ID 数量,占用 12 位,最大4096并且单调递增。
  • 总共 64 位,除去符号位后剩下 63 位,刚好是一个 Java long 类型的取值范围。

Leaf 雪花算法生成逻辑

  • 如果当前时间<上次时间,直接抛出异常。
  • 如果当前时间=上次时间,序列号累加,当序列号>4095时,会一直等待直到下一毫秒。
  • 组装分布式ID,时间戳左移22bit(10机器ID + 12序列号长度)| 机器ID左移12bit(12序列号长度)| 序列号。

雪花算法时钟回拨解决方法

  • 如果当前时间<上次时间,直接抛出异常。(Leaf)
  • 睡眠3ms,再次比对当前时间和上次时间,如果还存在时钟回拨问题,再抛出异常。
  • 使用备份机器号,例如将1024个机器号分半,前512个机器号是有效的,后512个机器号是备份机器号,当0号机器出现问题时,可以使用512号机器作为机器号。
  • 使用备份机器,总共10台机器,当0号机器出现问题时使用其他机器生成分布式ID,不太可能所有机器都存在问题。
  • 使用上次时间作为时间戳,继续使用最大序列号之后的序列号。

优势

  • 空间效率更高,64位整数在现代计算机系统中非常常见,并且足够大,能够容纳大量的唯一ID。64位的空间可以生成非常多的唯一ID,而不会很快用完。
  • 性能和实现简单性,使用64位整数使得算法比较简单易实现,且生成ID的速度非常快(只需要在内存中操作位即可),非常适合高并发场景。
  • 分布式系统中的唯一性,跨不同的机器和进程生成唯一ID是雪花算法的目标,可以确保在分布式系统中每个生成的ID都是唯一的。

感谢您的阅读!如果文章中有任何问题或不足之处,欢迎及时指出,您的反馈将帮助我不断改进与完善。期待与您共同探讨技术,共同进步!

相关推荐
heimeiyingwang1 天前
【架构实战】分布式ID生成方案:雪花算法与业务ID设计
分布式·算法·架构
AOwhisky1 天前
Ceph系列第一期:Ceph分布式存储核心概念与架构初识
linux·运维·笔记·分布式·ceph·学习·架构
Plastic garden1 天前
Kafka
分布式·kafka
未若君雅裁1 天前
Kafka 顺序消费:分区、消费者组、Key与业务有序性
分布式·微服务·kafka
AOwhisky1 天前
Ceph系列第二期:Ceph集群部署实战(cephadm)
linux·运维·笔记·分布式·ceph·云计算·存储
qiuyepiaoling1 天前
rabbitmq 基础
分布式·rabbitmq·ruby
未若君雅裁1 天前
Kafka 消息可靠性:发送确认、acks、副本保存与Offset手动提交
分布式·微服务·kafka
phltxy1 天前
RabbitMQ 事务与消息分发
分布式·rabbitmq
better_liang1 天前
每日Java面试场景题知识点之-分布式秒杀系统的设计
java·redis·分布式·消息队列·高并发·秒杀系统·限流降级
woniu_buhui_fei1 天前
分布式限流
java·分布式