Partition架构

优质博文:IT-BLOG-CN

Partition架构

【1】结构: Region至少3ZoneZone内至少两个PartitionPartition内至少1K8S Member Cluster

【2】故障域: 故障域及核心链路至少Zone内收敛,甚至Partition收敛。故障域之间不应该有交互(状态流等);

【3】变更规范: 不同时变更多个Zone,甚至不同时变更多个Partition

【4】FederationRegional调度及控制面,负责Region内资源、容量调度;

【5】应用部署: 应用副本根据可用性级别分布在多个Zone内的多个Partition

故障域隔离FederatedHPA 场景梳理并分级,匹配不同故障域隔离要求。

【1】应用扩容链路: 高频+核心,Partition(Cluster)故障域内收敛,单个Partition故障不影响其他Partition正常扩容;

【2】HPA参数变更链路: 低频+非核心,Region故障域内收敛,故障会影响整个RegionHPA发布变更;

【3】ClusterRebalance链路: 低频+非核心,Region故障域内收敛,故障会影响整个Region的容量Rebalance

方案:

【1】HPA系统组件在Partition(Cluster)内完整部署并封闭,扩缩容链路与其它Partition完全隔离;

【2】FederatedHPA只负责Partition/Zone间的Rebalance协调与变更分发;

效果: 单个AZPartitionFederation的故障不影响其它AZPartition的应用扩缩容。

应用部署的Group(Rollout)Region级别。由Federation控制与分发到多个Zone内的PartitionGroup不同时变更多个Zone

容量调度问题

【1】流量上涨,Zone A扩容成功率下降(其他系统正在扩容等),需要降低Zone A流量比例,扩容成功率恢复后,需要恢复流量比例关系;

【2】Zone流量比例发生倾斜,如果单个Zone故障,ZoneCapacity会比非倾斜时高,需要主动触发提前扩容Node;

【3】混合云场景,私有云Zone容量不足,将部分应用容量公有云Zone倾斜,过峰后,因成本因素,恢复原有状态;

方案:

【1】Autopilot监听各Zone的资源用量、容量、扩容成功率以及SRE运营规则;

【2】Autopilot生成流量调度结果,并下发调度;

【3】HPA感知负载变化进行扩缩;

【4】Autopilot根据当前各Zone用量更新Capacity,并指导提前Node扩容;

多机房库存问题

用户的请求保证在同一机房内完成闭环,但部分场景并不适合划分单元化,比如多机房库存扣减问题。面对多机房库存扣减问题目前的策略如下:

【1】业务扣库存逻辑不调整,还是同步扣库存,但事先根据流量分配好每个机房库存;

【2】增加库存调配机制,当库存不足时触发库存调配,从有多余库存的机房进行调配;

【3】增加监控和库存不足告警通知,除了自动资源调配,对活动上线后进行机房间的库存情况实时观测和实时手动调配;

相关推荐
L543414466 小时前
告别代码堆砌匠厂架构让你的系统吞吐量翻倍提升
大数据·人工智能·架构·自动化·rpa
子春一6 小时前
Flutter for OpenHarmony:色彩捕手:基于 CIELAB 色差模型与人眼感知的高保真色彩匹配游戏架构解析
flutter·游戏·架构
冻感糕人~7 小时前
收藏备用|小白&程序员必看!AI Agent入门详解(附工业落地实操关联)
大数据·人工智能·架构·大模型·agent·ai大模型·大模型学习
ai_xiaogui7 小时前
【开源前瞻】从“咸鱼”到“超级个体”:谈谈 Panelai 分布式子服务器管理系统的设计架构与 UI 演进
服务器·分布式·架构·分布式架构·panelai·开源面板·ai工具开发
X54先生(人文科技)8 小时前
《元创力》开源项目库已经创建
人工智能·架构·开源软件
无心水8 小时前
分布式定时任务与SELECT FOR UPDATE:从致命陷阱到优雅解决方案(实战案例+架构演进)
服务器·人工智能·分布式·后端·spring·架构·wpf
一个骇客8 小时前
当数据开始“连线”:图模型与现代开发的新连接
架构
国科安芯9 小时前
抗辐照MCU在精密时频系统中的单粒子效应评估与可靠性验证
单片机·嵌入式硬件·架构·制造·安全性测试
桂花很香,旭很美9 小时前
智能体端云协同架构指南:通信设计、多智能体编排与落地
人工智能·架构
Giggle121810 小时前
外卖 O2O 系统怎么选?从架构到部署方式的完整拆解
大数据·架构