雪花算法:高并发场景下的分布式唯一ID生成方案解析

引言

雪花算法将64位整数划分为时间戳(41位)、机器ID(10位)和序列号(12位),结合高位位移运算实现毫秒级ID生成,单机每秒可承载超400万次请求。其核心逻辑通过时间有序性确保ID单调递增,同时借助机器ID的分段设计支持横向扩展。然而,时钟回拨问题可能威胁算法的可靠性,为此衍生了多种容错策略,例如短暂等待、备份机器切换及容错序列复用等,兼顾了灵活性与鲁棒性。

雪花算法

  • 符号位:始终为 0,占用 1 位。
  • 时间戳:精确到毫秒级,占用 41 位。
  • 机器 ID:机器 ID 可以划分为两部分,占用 10 位。其中 5 位是数据中心 ID,另外 5 位是机器 ID。
  • 序列号:序列号可以精确控制单位时间内最大生成的 ID 数量,占用 12 位,最大4096并且单调递增。
  • 总共 64 位,除去符号位后剩下 63 位,刚好是一个 Java long 类型的取值范围。

Leaf 雪花算法生成逻辑

  • 如果当前时间<上次时间,直接抛出异常。
  • 如果当前时间=上次时间,序列号累加,当序列号>4095时,会一直等待直到下一毫秒。
  • 组装分布式ID,时间戳左移22bit(10机器ID + 12序列号长度)| 机器ID左移12bit(12序列号长度)| 序列号。

雪花算法时钟回拨解决方法

  • 如果当前时间<上次时间,直接抛出异常。(Leaf)
  • 睡眠3ms,再次比对当前时间和上次时间,如果还存在时钟回拨问题,再抛出异常。
  • 使用备份机器号,例如将1024个机器号分半,前512个机器号是有效的,后512个机器号是备份机器号,当0号机器出现问题时,可以使用512号机器作为机器号。
  • 使用备份机器,总共10台机器,当0号机器出现问题时使用其他机器生成分布式ID,不太可能所有机器都存在问题。
  • 使用上次时间作为时间戳,继续使用最大序列号之后的序列号。

优势

  • 空间效率更高,64位整数在现代计算机系统中非常常见,并且足够大,能够容纳大量的唯一ID。64位的空间可以生成非常多的唯一ID,而不会很快用完。
  • 性能和实现简单性,使用64位整数使得算法比较简单易实现,且生成ID的速度非常快(只需要在内存中操作位即可),非常适合高并发场景。
  • 分布式系统中的唯一性,跨不同的机器和进程生成唯一ID是雪花算法的目标,可以确保在分布式系统中每个生成的ID都是唯一的。

感谢您的阅读!如果文章中有任何问题或不足之处,欢迎及时指出,您的反馈将帮助我不断改进与完善。期待与您共同探讨技术,共同进步!

相关推荐
czlczl200209258 小时前
XA分布式事务
分布式
笨手笨脚の11 小时前
分布式系统的本质是什么
分布式
czlczl2002092513 小时前
Zookeeper
分布式·zookeeper·云原生
布吉岛的石头13 小时前
分库分表实战:Sharding-JDBC 快速落地
分布式·mysql
渔民小镇19 小时前
4 行代码接入 Spring —— ionet 的生态融合之道
java·服务器·分布式·游戏
苍煜19 小时前
Kafka vs RocketMQ 生产环境选型指南
分布式·kafka·rocketmq
m0_7162550021 小时前
第二部分 电商离线数仓 全套项目代码(可直接在你伪分布式 Hive 运行)
hive·hadoop·分布式
旷世奇才李先生21 小时前
Spring Cloud Alibaba 2026微服务全栈实战:服务治理\+流量控制\+分布式事务
分布式·微服务·架构
Amy1870211182321 小时前
虚拟电厂为什么必须“牵手”微电网?答案全在这里
分布式·安全·能源
旷世奇才李先生1 天前
Redis 7\.0实战:分布式缓存与高可用集群搭建全指南
redis·分布式·缓存