打造精细化运维新玩法(二)

但是,在以K8S为代表的云原生交付体系下,面向终态的声明式操作逐步替代了早期的面向过程式的运维模式,经典的故障驱动型治理模式,逐渐暴露出了一些问题,强调是否产生故障或事件大过服务质量本身。随着运维精细化的演进和架构治理需要,我们需要一种贴合云原生、更普适和体系化的模式来驱动日常运维。

同时,围绕云原生的应用生态已然成为了当下最主流的交付模式,企业上云也是快速开展业务和节约成本的最佳选择。企业上云之后可以不用关心底层的网络结构、计算资源、存储、中间件、负载均衡等技术细节和实现,只要专注于业务逻辑的研发即可。显然,上云提效的同时也失去了对于底层基础设施能力的掌控力。基础设施能力不透明、云厂商操作不可见,对于上层业务系统的稳定性都是巨大的风险隐患。因此,云服务质量的公开、透明化是企业选择上云与否以及选择哪家云厂商重要考量因素之一。

另外,组织协调也需要共同的目标。在应用生命周期的不同阶段,会存在不同的角色分工,比如研发负责应用的功能开发和性能优化、SRE保障应用运行的稳定性和安全等,跨团队协同需要有一致的共建目标来驱动应用架构的迭代和演进。因此,我们需要一种有效、可量化的机制对齐和牵引不同团队间的合作。特别的,SRE需要及时将软件缺陷和系统风险同步到研发侧,确保系统运行期间的高可用性。故障驱动型的运营模式下,通过故障复盘来组织协同是常见的形式,主要问题是存在滞后性。如何主动提前识别到服务异常、系统风险是稳定性建设的核心诉求之一。

通过前面的案例和背景介绍,相信大家已经很清楚我们接下来要介绍的内容了。在实践探索中,我们通过建设SLO体系有效地解决了上述提到的问题,为精细化运维提供了的有力数据支撑和数据资产建设规范。借助SLO数据,针对不同的运维场景抽象、建设和组合相关的能力,让SLO体系实践落地具备普适性和可借鉴意义。

接下来我们介绍下围绕SLO的几个关键概念:

SLI(Service Level Indicator)

系统具备可观测性是构建SLO的前提,系统需要具备一个或多个监控指标来反应某些维度上的服务能力,将服务水平跟观测指标绑定。SLI(Service Level Indicator)的选择和指定主要取决于服务哪些维度的能力需要被观测到,以及现有的监控指标和手段是能够否覆盖到,亦或是需要设计开发侵入性的代码逻辑来实现。简言之,SLI提供了服务水平的可观测性。

SLO(Service Level Objective)

SLI提供了应用或系统服务能力和服务水平的可观测性,SLO是针对其量化结果设置的目标,用以承诺和管理用户对服务水平的预期。这种对预期的声明式公开透明的、确定的,对于服务的不同消费端是一致的、无差别的。同时,SLO的结果可以用来通晒,对齐多方对于服务水平和服务能力的认知和共识,以此改善用户间的沟通。此外,还可以利用SLO的结果平衡研发效率和系统稳定性,当SLO不达标时,反映出稳定性受到挑战,则需要放缓研发效率,投入更多的精力在稳定性建设上。

以系统可用性SLO为例,当服务端承诺月度SLO为99.9%时,说明系统在以月为统计窗口的时间片结算时,其不可用时长不能超过43分钟,超过则认为当月服务质量不达标。显然,可用性目标设置地越高,意味着可接受的宕机或不可用时长更短。为了达成更高的目标,往往需要付出更多的投入和努力。

SLA(Service Level Agreement)

SLA(Service Level Agreement)的制定,是为了约束和监督服务方对于SLO承诺的履行结果,包括针对SLO运行不达标的惩罚和补偿说明。比如,所有云服务厂商都会对其销售的服务出具SLA,主要包括服务介绍、度量服务质量使用的SLI、对客承诺的SLO、以及结算不达标时的补偿方案等内容。

以AWS(Amazon Web Service)上的云服务器ECS(Elastic Compute Service)为例,该服务的SLA协议中明确指出了一旦服务水平不达标之后,在费用上会给出何种优惠措施,优惠的粒度会依据SLO不达标的程度区分出不同的档位,并且当SLO破线到一定阈值后,将返还购买该服务的所有费用。

根据前面的介绍可以看出,SLO体系之所以可以运转的核心驱动力来自于SLA。但是针对内部的应用和服务,我们不能像云服务一样,通过成本价格约束SLO的执行情况,因此需要寻找一种等价约束力来驱动SLO运营成了关键问题。实践中,我们会将不达标的SLO结算成不同等级的技术风险事件,通过稳定性相关的例会透出通晒和治理。

域内公示SLA也是我们运营的重要环节,如下是一份SLA公示模版。通过SLA公示将服务等级公开透明地传递给消费端,以此对齐消费端预期。公示审批的过程中,促成上下游服务之间握手、达成共识,打造SLO驱动的技术氛围和文化。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索"IT服务",排名第一的就是。或添加顾问:添加我为微信好友)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长

相关推荐
车载诊断技术23 分钟前
电子电气架构 --- 什么是EPS?
网络·人工智能·安全·架构·汽车·需求分析
KevinRay_28 分钟前
Python超能力:高级技巧让你的代码飞起来
网络·人工智能·python·lambda表达式·列表推导式·python高级技巧
跃跃欲试-迪之33 分钟前
animatediff 模型网盘分享
人工智能·stable diffusion
Captain823Jack1 小时前
nlp新词发现——浅析 TF·IDF
人工智能·python·深度学习·神经网络·算法·自然语言处理
被制作时长两年半的个人练习生1 小时前
【AscendC】ReduceSum中指定workLocal大小时如何计算
人工智能·算子开发·ascendc
2301_819287121 小时前
ce第六次作业
linux·运维·服务器·网络
CIb0la2 小时前
GitLab 停止为中国区用户提供 GitLab.com 账号服务
运维·网络·程序人生
Captain823Jack2 小时前
w04_nlp大模型训练·中文分词
人工智能·python·深度学习·神经网络·算法·自然语言处理·中文分词
武汉联从信息2 小时前
如何使用linux日志管理工具来管理oracle osb服务器日志文件?
linux·运维·服务器
天天进步20152 小时前
STUN服务器实现NAT穿透
运维·服务器