打造精细化运维新玩法(二)

但是,在以K8S为代表的云原生交付体系下,面向终态的声明式操作逐步替代了早期的面向过程式的运维模式,经典的故障驱动型治理模式,逐渐暴露出了一些问题,强调是否产生故障或事件大过服务质量本身。随着运维精细化的演进和架构治理需要,我们需要一种贴合云原生、更普适和体系化的模式来驱动日常运维。

同时,围绕云原生的应用生态已然成为了当下最主流的交付模式,企业上云也是快速开展业务和节约成本的最佳选择。企业上云之后可以不用关心底层的网络结构、计算资源、存储、中间件、负载均衡等技术细节和实现,只要专注于业务逻辑的研发即可。显然,上云提效的同时也失去了对于底层基础设施能力的掌控力。基础设施能力不透明、云厂商操作不可见,对于上层业务系统的稳定性都是巨大的风险隐患。因此,云服务质量的公开、透明化是企业选择上云与否以及选择哪家云厂商重要考量因素之一。

另外,组织协调也需要共同的目标。在应用生命周期的不同阶段,会存在不同的角色分工,比如研发负责应用的功能开发和性能优化、SRE保障应用运行的稳定性和安全等,跨团队协同需要有一致的共建目标来驱动应用架构的迭代和演进。因此,我们需要一种有效、可量化的机制对齐和牵引不同团队间的合作。特别的,SRE需要及时将软件缺陷和系统风险同步到研发侧,确保系统运行期间的高可用性。故障驱动型的运营模式下,通过故障复盘来组织协同是常见的形式,主要问题是存在滞后性。如何主动提前识别到服务异常、系统风险是稳定性建设的核心诉求之一。

通过前面的案例和背景介绍,相信大家已经很清楚我们接下来要介绍的内容了。在实践探索中,我们通过建设SLO体系有效地解决了上述提到的问题,为精细化运维提供了的有力数据支撑和数据资产建设规范。借助SLO数据,针对不同的运维场景抽象、建设和组合相关的能力,让SLO体系实践落地具备普适性和可借鉴意义。

接下来我们介绍下围绕SLO的几个关键概念:

SLI(Service Level Indicator)

系统具备可观测性是构建SLO的前提,系统需要具备一个或多个监控指标来反应某些维度上的服务能力,将服务水平跟观测指标绑定。SLI(Service Level Indicator)的选择和指定主要取决于服务哪些维度的能力需要被观测到,以及现有的监控指标和手段是能够否覆盖到,亦或是需要设计开发侵入性的代码逻辑来实现。简言之,SLI提供了服务水平的可观测性。

SLO(Service Level Objective)

SLI提供了应用或系统服务能力和服务水平的可观测性,SLO是针对其量化结果设置的目标,用以承诺和管理用户对服务水平的预期。这种对预期的声明式公开透明的、确定的,对于服务的不同消费端是一致的、无差别的。同时,SLO的结果可以用来通晒,对齐多方对于服务水平和服务能力的认知和共识,以此改善用户间的沟通。此外,还可以利用SLO的结果平衡研发效率和系统稳定性,当SLO不达标时,反映出稳定性受到挑战,则需要放缓研发效率,投入更多的精力在稳定性建设上。

以系统可用性SLO为例,当服务端承诺月度SLO为99.9%时,说明系统在以月为统计窗口的时间片结算时,其不可用时长不能超过43分钟,超过则认为当月服务质量不达标。显然,可用性目标设置地越高,意味着可接受的宕机或不可用时长更短。为了达成更高的目标,往往需要付出更多的投入和努力。

SLA(Service Level Agreement)

SLA(Service Level Agreement)的制定,是为了约束和监督服务方对于SLO承诺的履行结果,包括针对SLO运行不达标的惩罚和补偿说明。比如,所有云服务厂商都会对其销售的服务出具SLA,主要包括服务介绍、度量服务质量使用的SLI、对客承诺的SLO、以及结算不达标时的补偿方案等内容。

以AWS(Amazon Web Service)上的云服务器ECS(Elastic Compute Service)为例,该服务的SLA协议中明确指出了一旦服务水平不达标之后,在费用上会给出何种优惠措施,优惠的粒度会依据SLO不达标的程度区分出不同的档位,并且当SLO破线到一定阈值后,将返还购买该服务的所有费用。

根据前面的介绍可以看出,SLO体系之所以可以运转的核心驱动力来自于SLA。但是针对内部的应用和服务,我们不能像云服务一样,通过成本价格约束SLO的执行情况,因此需要寻找一种等价约束力来驱动SLO运营成了关键问题。实践中,我们会将不达标的SLO结算成不同等级的技术风险事件,通过稳定性相关的例会透出通晒和治理。

域内公示SLA也是我们运营的重要环节,如下是一份SLA公示模版。通过SLA公示将服务等级公开透明地传递给消费端,以此对齐消费端预期。公示审批的过程中,促成上下游服务之间握手、达成共识,打造SLO驱动的技术氛围和文化。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索"IT服务",排名第一的就是。或添加顾问:添加我为微信好友)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长

相关推荐
。puppy3 分钟前
HCIP--3实验- 链路聚合,VLAN间通讯,Super VLAN,MSTP,VRRPip配置,OSPF(静态路由,环回,缺省,空接口),NAT
运维·服务器
颇有几分姿色12 分钟前
深入理解 Linux 内存管理:free 命令详解
linux·运维·服务器
埃菲尔铁塔_CV算法19 分钟前
人工智能图像算法:开启视觉新时代的钥匙
人工智能·算法
EasyCVR20 分钟前
EHOME视频平台EasyCVR视频融合平台使用OBS进行RTMP推流,WebRTC播放出现抖动、卡顿如何解决?
人工智能·算法·ffmpeg·音视频·webrtc·监控视频接入
打羽毛球吗️26 分钟前
机器学习中的两种主要思路:数据驱动与模型驱动
人工智能·机器学习
光芒再现dev29 分钟前
已解决,部署GPTSoVITS报错‘AsyncRequest‘ object has no attribute ‘_json_response_data‘
运维·python·gpt·语言模型·自然语言处理
AndyFrank42 分钟前
mac crontab 不能使用问题简记
linux·运维·macos
好喜欢吃红柚子43 分钟前
万字长文解读空间、通道注意力机制机制和超详细代码逐行分析(SE,CBAM,SGE,CA,ECA,TA)
人工智能·pytorch·python·计算机视觉·cnn
小馒头学python1 小时前
机器学习是什么?AIGC又是什么?机器学习与AIGC未来科技的双引擎
人工智能·python·机器学习
神奇夜光杯1 小时前
Python酷库之旅-第三方库Pandas(202)
开发语言·人工智能·python·excel·pandas·标准库及第三方库·学习与成长