云原生服务高可用性保持的简单思考

从云计算到云原生,从IaaS到PaaS,从资源层到服务层,当前整个云平台的高可靠、高可用性本质上是越来越复杂的。

同样的,随着云原生的深入,从传统的单体应用到目前主流的微服务架构,总体服务的高可靠、高可用的维持也越发艰难。

从本质上来说,单体服务拆分为一个个微服务是云原生阶段的重要特征,但这种拆分往往带来的是可扩展性方面的提升:

  • 从某种程度上来说,高可靠与高扩展是相互矛盾的,类似于CAP理论中的不可能三角。

虽然在微服务架构下,由于容灾降级等方案的存在,某一个微服务出现故障宕机时不会影响其他的微服务,但随着云原生技术的不断发展演进,业界也更加强调平台+应用 、强调云原生技术底座 、强调各种共性技术服务能力的共享------诸如消息中间件与缓存(DMS)、安全(SEC)、数据库(RDS)、认证系统(IAM)、网关(APIG)等等。

我们可以看到,即使我们做了微服务拆分,但其底层所依赖的底座却越来越重、依赖性也越来越高。

一旦底座服务出现影响,那么上层所有的微服务均会收到影响。因此,对于我们整个底座的高可用性要求就会越来越高。

针对这种风险,除了实践混沌工程模拟可能出现的现网故障、完善监控等手段外,在去中心化架构下强调控制面与数据面进行分离也是方法之一,但也未必保险:

正如最近阿里云发生的P0级别故障,本质上来说是RAM(Resource Access Management,访问控制)出现了故障,虽然其本质上属于控制面,但长时间故障+高实时性要求,同样会引发大规模的数据面问题。

当然了,时代不能回头、技术也不能退化,这一切都只会"驰骋"在云原生的战车一路狂奔。

相关推荐
哈里谢顿2 天前
Kubernetes Operator核心概念、实现原理和实战开发
云原生
阿里云云原生2 天前
你的 OpenClaw 真的在受控运行吗?
云原生
阿里云云原生2 天前
5 分钟零代码改造,让 Go 应用自动获得全链路可观测能力
云原生·go
Shanyoufusu122 天前
RKE2 单节点集群安装 Rancher+ 私有镜像仓库搭建 完整教程
云原生
阿里云云原生2 天前
Dify 官方上架 Higress 插件,轻松接入 AI 网关访问模型服务
云原生
AI攻城狮2 天前
OpenClaw Session 管理完全指南:Context 压缩、重置与持久化
人工智能·云原生·aigc
阿里云云原生6 天前
阿里云获评 Agentic AI 开发平台领导者,函数计算 AgentRun 赢下关键分!
云原生
阿里云云原生6 天前
MSE Nacos Prompt 管理:让 AI Agent 的核心配置真正可治理
微服务·云原生
阿里云云原生7 天前
当 AI Agent 接管手机:移动端如何进行观测
云原生·agent
阿里云云原生7 天前
AI 原生应用开源开发者沙龙·深圳站精彩回顾 & PPT下载
云原生