前言
高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,通常是指通过设计减少系统不能提供服务的时间。很多公司的高可用目标是4个9,也就是99.99%,这就意味着,系统的年停机时间为8.76个小时。为了保证系统的高可用,我们可以从事前、事中和事后三个时间阶段,从技术和业务两个层面来解决问题。
事前
技术层面
分布式架构和负载均衡:
- 采用分布式和冗余架构,避免单点故障。
-
- 硬件冗余是指在关键的硬件组件上使用多个备份,以防止单个设备的故障导致整个系统瘫痪。例如,在数据中心中,可能会部署多台服务器、多个网络路径、多个电源供应等,确保任何一个组件的失败都不会影响整体服务。硬件冗余通常包括但不限于服务器、存储设备、网络设备和电源。也就是所谓的多活架构,比如同城双活、两地三中心、异地多活
- 软件冗余则是通过部署多个软件实例或副本来提高系统的可用性。在一个高可用性的环境中,关键服务将在多个服务器或节点上运行,确保即使某个节点出现故障,其他节点仍能继续提供服务。这种做法在微服务架构中尤其常见,其中每个服务可能有多个实例运行在不同的服务器或容器中。
- 使用负载均衡器平衡流量,确保各个节点的负载均匀。负载均衡是一种分配网络流量和请求到多个服务器或资源的技术。它的目的是优化资源使用、最大化吞吐量、减少响应时间,并避免任何单一资源过载。负载均衡器可以是软件或硬件设备,它在接收到请求时,根据预设的规则将流量分配到后端的服务器群。这些规则可以基于多种因素,如服务器的当前负载、健康状态或地理位置。通过负载均衡,可以在多个服务器之间分散工作负载,增加系统的可用性和可靠性。
-
- 硬件负载:通过硬件来进行分流,常见的硬件有比较昂贵的F5和Array等商用的负载均衡器,它的优点就是有专业的维护团队来对这些服务进行维护、缺点就是花销太大,一般在互联网系统较少使用,主要用于金融行业的核心服务;
- 软件负载:通过软件实现分流,如Nginx/LVS/HAProxy的基于Linux的开源免费的负载均衡软件,这些都是通过软件级别来实现,费用非常低廉。按所处OSI模型的工作层级,可分为7层负载和4层负载。7层负载,是指工作在网络7层,基于URL等应用层信息的负载均衡,主要代表有Nginx。4层负载,就是基于IP+端口的负载均衡,主要代表有LVS。
数据备份与故障转移:
其核心思想是对分布式系统中的节点进行备份,备份会分为冷备和热备。通常将数据中心分为主备两种,主提供业务服务,备不提供服务仅作备份和故障转移。
- 冷备也就是定时备份,主推或者备拉去备份数据。
- 热备,也就是对主数据中心做实时性的备份,以便在主数据中心出现故障时进行转移。这时候主备会有同步和异步两种数据复制方式,但因为同步会造成性能的损失,所以通常使用异步,这种情况下会造成一定程度的数据延迟问题。
故障转移分为两种模式,各有优劣:
- 主动-被动模式下,一台服务器(或服务实例)作为主动节点运行,处理所有请求,而另一台或多台服务器作为被动节点,处于待命状态。当主动节点发生故障时,系统会自动切换到被动节点,后者接管服务,从而减少系统停机时间。这种模式的优点是简单明了,但缺点是备用资源在大部分时间内处于闲置状态。
- 主动-主动模式中,所有服务器都处于活动状态并处理请求。这种模式提高了资源的利用率,但同时也增加了管理的复杂性。在这种设置中,如果一个节点失败,其他节点需要能够接管其工作负载,而不影响总体性能。这通常需要更复杂的负载均衡和同步机制。
自动化部署和扩展:
自动化是实现高可用性的关键。这包括自动故障检测和恢复、自动扩展和收缩资源以适应负载变化、自动化部署和配置管理。通过自动化,可以减少人为错误,提高运维效率。
监控和警报系统:
- 有效的监控系统可以实时跟踪应用程序和基础设施的健康状况。这包括监控服务器的性能指标(如CPU使用率、内存使用、网络流量)和应用级指标(如响应时间、错误率)。监控可以帮助及时发现问题并采取措施,防止小问题演变成大问题。
- 收集和分析应用日志,及时发现潜在问题,快速响应和解决。
- 设置自动化的警报系统,及时通知团队关于潜在的问题。
业务层面
灾难恢复计划:
- 制定灾难恢复计划,包括备份恢复、系统迁移和紧急操作步骤,也包括、团队的紧急联系人和步骤,以迅速应对突发事件。
- 定期对团队成员进行培训及测试灾难恢复计划,确保在实际情况中有效。
安全性措施:
- 实施严格的身份验证和授权机制,确保只有授权用户能够访问敏感信息以及变更实例。
事中
技术层面
自动化故障检测和恢复:
检查事前配置的自动故障转移策略是否生效,如果不生效启用灾备恢复计划。常规情况下通常需要实施快速版本回滚,最大限度降低损失。
实时监控和日志分析:
- 实时监控系统的性能,追踪实时指标,避免后续持续发生问题。
- 通过实时警报系统,及时通知团队关于潜在问题,以便快速响应。
事后
技术层面
事故分析和改进:
- 进行事故分析,深入了解故障原因。
- 采取措施,防止类似问题再次发生,进行系统改进。
业务层面
用户通知和沟通:
- 向用户提供详细的事故报告,解释发生的问题和采取的措施。
- 收集用户反馈,用于改进系统的用户体验。
培训和知识共享:
- 将事后的教训纳入培训计划,确保团队学到经验教训。
- 实施知识共享机制,使团队能够从彼此的经验中学习。
口语化总结
对于保证系统的高可用,我们可以通过事前、事中和事后三个时间阶段以及技术和业务两个层面综合进行处理。事前的准备是最多的,因为我们要尽最大努力去保证不出现问题。技术层面有几点可以做,一是我们可以采用分布式架构,做好冗余,软件方面做好集群部署,硬件方面做好多活策略。二是做好数据备份和自动故障转移。三是做好自动化部署和弹性伸缩,我现在公司是自研了一个DevOps平台,实现了自动化的CICD,暂时没有资源弹性的伸缩,可以手动修改应用节点数量,异地多活策略是在北京福州还有新加坡搭建了服务器。四是监控和告警,我现在公司是用的prometheus+grafana,通过K8s提供的探针来监控服务器或者部分应用的关键指标,配合告警及时通知相关负责人处理。业务层面有两点,一是组建一个紧急响应团队,或者对每个项目的负责人进行专门的灾备培训,定期测试灾备计划的有效性。二是严控操作权限和外部依赖,我现在公司基于自研的开发服务平台,控制权限只有部分角色允许进行服务变更,对于MySQLRedis一类的中间件也只提供固定配置的申请资源。
事中的时候自然是能进行自动故障转移最好,不行的话立刻启动灾备计划。如果是服务变更引起的问题,立刻回滚版本,先保证服务稳定运行。同时也要关注监控指标,避免问题反复。事后技术层面上自然是进行事故分析,对故障原因进行复盘,采取一些技术上的措施进行系统改进。业务层面上就是做好经验教训的培训和知识共享,同时对受影响的用户提供详细的事故报告,做好公关,提供补偿,收集用户的反馈,优化用户体验。
写在最后
一个常见的高可用总结,偏理论,在最后的总结部分加上了具体的实践。如果有机会参与或者在某个完善的架构里,我会结合真实的企业级案例进行讲解。
下一篇有时间我会写一篇介绍最近比较有意思的一个AOP代码,递归+反射去检查并替换接口返回值。最近事太多了,没时间沉淀,部分散碎的知识点追加到了之前知识体系总结的专栏文章里,欢迎回看juejin.cn/column/7185...