b站高可用架构 笔记

b站高可用架构

关键点:主机房,多活和多活机房

参考文章:bilibili技术总监毛剑:B站高可用架构实践

1. 前端和数据中心负载均衡

  • 前端负载均衡(动态CDN):最近节点、带宽策略、可用服务容量

  • 数据中心负载均衡:均衡流量、识别异常节点、扩容、提高可用性

  • 子集选择算法:减少心跳检测成本,平均分配后端至客户端,节点变更持续均衡

  • 高并发:多集群提高吞吐量,数据保存多缓存,单集群故障迁移成本降低

2. 负载均衡算法

  • 正常:轮询

  • 问题:请求处理成本不同、物理机差异、k8s容器切换用户感知

  • 关键:考虑服务器可用性,构建全局视图,负载+可用性

  • 算法:choice-of-2 算法,选2节点打分选择;预热新节点;低分节点统计衰减避免"永久黑名单"

3. 分布式限流

  • 作用:服务器过载,先降级服务->限流保证服务稳定

  • 正常:静态QPS

  • 问题:某用户请求过重,挤兑其他用户

  • 关键:不同流量、重要性、用户对应不同QPS,最重要服务自保

  • 解决:使用算法quota-server获取quota,基于滑动窗口(一段时间内使用的次数)最大值计算quota;最大最小公平算法解决大消耗者饥饿;客户端概率公式截流,不全部拒绝

  • 配额获取:基于统一错误码

4. 重试、超时、应对连锁故障

  • 重试:限制次数,只失败层重试,失败返回错误码避免级联,设置周期速率诊断

  • 超时:高并发高延迟引发故障,超时为fail fast让请求消耗或丢弃,上下游不一致导致资源浪费

  • "默认值策略":每个请求每个阶段检查足够剩余时间

  • 跨进程超时控制:rpc承诺超时时间,不足取消传递,超时时间覆盖上游

  • 应对连锁故障:避免过载,限流->降级,重试退避,超时控制,变更管理,压测演练,扩容重启消除流量

5. 其他

当客户端访问服务时,将用户数据保存到多个缓存上

  • 当Quota耗尽或申请Quota的时间过期,也能主动拉取数据。

  • quota server故障:降级本地策略或直接放行

  • Apisix vs Envoy:Apisix基于nginx ,nginx的多 worker 的协作方式具有高并发优势,Envoy总线设计使得处理东西向流量具有优势

多服务器心跳检测成本过高:

解决:子集选择。client不连接全集,只连接一部分服务器进行负载均衡。

6. b站架构

  • 无限递归导致主机房CPU爆掉,限流无解,用户刷新多活机房流量挂掉

  • 崩溃不影响CDN静态资源

  • 多活:不同业务不同机房,主机房承载所有在线业务

无限递归导致主机房CPU爆掉,限流无解,用户刷新多活机房流量挂掉

问题:

1. b站架构如何实现高效和可靠的负载均衡

  • 前端和数据中心负载均衡器(BFE和Envoy),选择最近节点、根据带宽和容量均衡流量

  • 子集选择算法,减少连接和心跳检测成本,持续均衡节点变更

  • choice-of-2算法考虑服务器可用性,选2节点打分选择,预热新节点,统计衰减低分节点

2. 如何优化超大规模集群的连接和限流

  • 子集选择算法,客户端只连接后端子集,减少连接和心跳成本

  • quota-server获取和计算quota,减少请求backend频次;滑动窗口算法;最大最小公平算法防大消耗者饥饿

  • 客户端概率公式截流,不全部拒绝,配额获取基于统一错误码

3. 如何设置合理的重试和超时策略- 重试:限制次数,只失败层重试,失败返回错误码避免级联,设置周期速率诊断

  • 超时:高并发高延迟引发故障,超时为fail fast让请求消耗或丢弃
  • "默认值策略":每个请求每个阶段检查足够剩余时间
  • 跨进程超时控制:rpc承诺超时时间,不足取消传递,超时时间覆盖上游

4. 如何防止和处理连锁故障- 避免过载,限流->降级,重试退避,超时控制

  • 变更管理,压测演练,扩容重启消除有害流量

5. 如何利用多活机房来提高服务可用性

  • 多活(容灾):根据不同业务选择不同机房,主机房承载所有在线业务

其他:主机房CPU炸掉,限流无解,用户刷新导致多活机房流量挂掉,导致崩溃。

相关推荐
Jing_jing_X6 小时前
AI分析不同阶层思维 二:Spring 的事务在什么情况下会失效?
java·spring·架构·提升·薪资
jump_jump13 小时前
SaaS 时代已死,SaaS 时代已来
前端·后端·架构
一条咸鱼_SaltyFish14 小时前
[Day14] 微服务开发中 `contract - common` 共享库的问题排查与解决
程序人生·微服务·架构·开源软件·ddd·个人开发·ai编程
一只鱼丸yo14 小时前
从单体到微服务:一次真实迁移实战
微服务·云原生·架构
桌面运维家15 小时前
vDisk VOI架构IO瓶颈怎么办?Windows优化实战
windows·架构
Blossom.11816 小时前
Transformer架构优化实战:从MHA到MQA/GQA的显存革命
人工智能·python·深度学习·react.js·架构·aigc·transformer
Python_Study202516 小时前
制造业数据采集系统选型指南:从技术挑战到架构实践
大数据·网络·数据结构·人工智能·架构
喵叔哟17 小时前
8.健康检查与监控
架构·.net
踏浪无痕18 小时前
JobFlow 负载感知调度:把任务分给最闲的机器
后端·架构·开源
编程点滴18 小时前
高并发与分布式系统中的幂等处理
架构