分布式

敖正炀33 分钟前
分布式·架构
高并发系统的降级预案与容错策略系列定位说明本文是“高并发与稳定性工程”系列的第 8 篇。在构建了限流(第 1 篇)、熔断(第 2 篇)、隔离(第 3 篇)、容量规划(第 4 篇)、混沌验证(第 5 篇)、秒杀架构(第 6 篇)、监控告警(第 7 篇)之后,降级预案是整个稳定性体系的最后一道主动防线。它不是自动触发的断路器,而是由架构师或自动化策略在预判系统即将崩溃时,做出有计划的牺牲决策。
敖正炀40 分钟前
分布式·架构
稳定性监控与告警体系:SLI/SLO/SLA 实践本文是“高并发与稳定性工程”系列的第 7 篇。在前 6 篇文章中,我们由底向上,从单点的限流算法、熔断降级、服务隔离,到全链路的容量规划、混沌工程,乃至百万级秒杀架构的实战落地,逐步构建了一套强悍的防御工事。然而,这一切精密的设计,若缺乏一套敏锐的“神经系统”进行实时感知与反馈,都无异于在黑暗中航行的巨轮。监控与告警,正是稳定性体系拼图的最后一块,它将“被动防御”升级为“主动感知”,将“事后修复”进化为“数据驱动”。
敖正炀1 小时前
分布式·架构
故障演练与混沌工程:ChaosBlade 到 Litmus本文是“高并发与稳定性工程”系列的第 5 篇。在前 4 篇构建了限流、熔断、隔离、容量规划四道防线之后,本文进入稳定性体系的“主动验证”环节——混沌工程。混沌工程不是“搞破坏”,而是“实弹演习”:用受控的故障注入来验证防线是否真的有效,暴露被理论和配置忽视的盲区。
敖正炀1 小时前
分布式·架构
全链路压测与容量规划方法论本文是“高并发与稳定性工程”系列的第 4 篇。前三篇在入口、出口与舱内分别构筑了限流、熔断、隔离三道防线,但每一道防线的参数——限流阈值设多少?熔断慢调用阈值定为多少?隔离线程池开多大?——都依赖一个前置答案:系统真实容量是多少? 本文正是回答这个前置问题:通过全链路压测安全地测量生产级容量,并将测量结果反哺为三道防线的精确参数,形成“测量→建模→决策→配置→验证”的容量规划闭环。
敖正炀1 小时前
分布式·架构
限流算法深度与 Guava/Sentinel 源码:从单机令牌桶到分布式滑动窗口的流量防护体系本文是 高并发与稳定性工程 系列的第 1 篇。在总纲系列(《分布式系统架构认知与设计》)确立了“故障是常态”与“优雅降级”的核心原则,并深入拆解了超时公式、退避算法与跨层故障阻断策略之后,本文正式进入稳定性工程的第一道防线——限流。限流是整个高并发防御体系的基石,后续的熔断、降级、隔离、压测等机制,均建立在“先限住流量,再谈如何更优雅地处理被限流量”这一前提之上。
山屿落星辰5 小时前
分布式
hixl - 让分布式训练“零拷贝“通信模式A(费曼科普)+ 架构原理剖析类型想象一下,你和朋友一起做PPT,但是每次改一页,都要把整个PPT文件发过来发过去。效率低吧?要是能只传"改动的那一页",甚至"改动的那个文本框",效率不就上去了?
逍遥德7 小时前
spring boot·分布式·后端·微服务·中间件
SpringBoot自带TaskScheduler 接口使用详解:(02)微服务多实例模式下,爆发任务重复执行问题在集群模式下,由于 TaskScheduler 是单机本地调度器,每个服务实例都会独立运行并触发定时任务,从而导致任务重复执行。要解决这个问题,核心思路是引入分布式锁(Distributed Lock)机制,确保同一时刻只有一个节点能成功获取到执行权限。
Solis程序员8 小时前
分布式·kafka·linq
基于 Outbox 事务表 + Canal 监听+kafka+多级缓存:高并发社交关注系统全链路架构设计在社交类业务系统中,用户关注与取关是访问量极高、并发压力大且对数据一致性要求严苛的核心场景,不仅需要应对用户高频点击、恶意刷接口等流量问题,还要解决消息丢失、重复消费、缓存与数据库数据偏差、粉丝关注计数不准等一系列线上常见难题。传统直接发送消息队列的开发模式,极易出现业务入库成功但消息投递失败,最终引发业务数据不一致的隐患。为此我基于实际业务场景,设计并落地了一套限流防护 + 多级缓存 + 本地事务事件表 + Canal 异步转发的完整高并发社交关系架构,通过前置流量拦截、事务保障事件可靠落地、分层缓存提
phltxy8 小时前
数据库·redis·分布式
Redis集群:分布式高可用存储方案随着互联网业务的快速迭代与用户规模的持续增长,数据量级与并发访问量呈现爆发式攀升,单机Redis部署逐渐暴露出明显短板,难以突破内存上限、性能瓶颈与单点故障的三重限制,无法满足企业级业务对高可用、高并发、海量数据存储的核心需求。Redis集群(Cluster)作为Redis官方推出的分布式解决方案,通过数据分片技术实现存储容量的水平扩展,依托多主多从架构构建高可用保障体系,凭借其高效、可靠的特性,成为企业级高并发、海量数据场景下的核心存储支撑,广泛应用于电商、金融、社交等各类主流业务领域。
二宝哥8 小时前
大数据·分布式·zookeeper
大数据之安装zookeeper官方下载地址:https://archive.apache.org/dist/zookeeper/日志目录和数据目录
xG8XPvV5d8 小时前
分布式·kafka
Kafka重平衡机制深度解析消费者组重平衡(Rebalance)是Kafka中确保分区分配公平和容错的核心机制。当消费者加入或离开组、订阅主题变化、分区数量变更时,触发重平衡以重新分配分区所有权。
敖正炀9 小时前
分布式·架构
云原生持续交付:GitOps 与渐进式发布系列定位: 本文是“微服务与云原生架构”系列的第 15 篇,在全景图中对应板块(10)——“持续交付与部署”。在完成从拆分、通信、治理、安全、配置、可观测到测试的全部架构与质量保障工作后,本文解决微服务的“最后一公里”问题:如何将变更安全、自动、可信地交付到生产环境。GitOps 是云原生时代持续交付的范式革命,渐进式发布则是避免生产事故的最后一道防线。
weixin_553654489 小时前
大数据·人工智能·分布式·spark
如何看待 2026 年 Google I/O 大会发布的 Gemini Spark?作为一名常年泡在硅谷、和各种大模型API死磕的技术老炮,我熬夜看完了 2026 年的 Google I/O 大会。说实话,过去几年各大厂的发布会早就让人审美疲劳了,不是卷上下文长度,就是卷多模态的响应速度。
heimeiyingwang10 小时前
分布式·算法·架构
【架构实战】分布式ID生成:雪花算法与业务ID设计字数统计:约 4500 字2023年双十一凌晨 00:00:37,某电商平台的订单系统突然雪崩。监控大屏上,错误日志像瀑布一样滚屏——“Duplicate entry ‘XXX’ for key ‘PRIMARY’”。技术团队连夜奋战两小时,最终查明原因:订单 ID 用的 UUID,去重了?不是。是雪花算法的时间回拨?不是。那是什么?原来是一名新入职的开发者在某次代码合并时,把本地调试用的固定值 111111111 提交了上去,而这个 ID 在高并发下恰好与真实订单 ID 产生了碰撞。
Jackyzhe10 小时前
分布式·学习·kafka
从零学习Kafka:调优在这个系列的结尾篇,我们来聊一下 Kafka 有哪些调优策略。在开始之前,我们先明确一下调优的目标:对 Kafka 来说,通常是在高吞吐、低延迟、高可靠这三点之间找到一个平衡。
Jackyzhe1 天前
分布式·学习·kafka
从零学习Kafka:消费者组重平衡本文我们一起来学习消费者组重平衡相关的知识。先解决前面留下的问题:如果生产者已经发送了大量消息,但在最后提交之前突然宕机,事务协调器会如何处理这个未完成的事务呢?
海南java第二人1 天前
分布式·clickhouse
ClickHouse 部署模式完全指南:从单机到分布式集群的生产级选型作为一名大数据工程师,选型部署架构往往是项目起步时最关键的一步。ClickHouse 凭借其极致的 OLAP 查询性能,近年来已成为大数据分析领域的明星产品。但如何根据业务场景选择合适的部署模式?单机、副本、分片集群到底该怎么选?本文将从零开始,带你全面掌握 ClickHouse 的四种核心部署模式,并深入剖析生产环境下的集群架构设计。
gQ85v10Db1 天前
数据库·redis·分布式
Redis 分布式锁进阶第三十四篇Redis分布式锁进阶第三十四篇:看门狗机制深度剖析与集群高可用实战日常开发中单纯使用SET key value NX EX实现的简易 Redis 分布式锁,只能满足简单短时效业务,一旦遇到长耗时任务、服务集群部署、主从节点宕机切换等场景,极易出现锁提前失效、锁误释放、死锁、集群锁失效等一系列线上问题。本篇承接前文,重点深挖 Redisson 原生分布式锁核心续命机制,补齐集群环境下分布式锁的高可用落地方案。
大G的笔记本1 天前
数据库·redis·分布式
Redis 分布式锁自动续期机制Redis 分布式锁一般是有自动续期机制的,不需要开发者手动续期。 典型代表就是 Redisson 的 WatchDog(看门狗)机制。