OpenSREClaw - 从 AIOps 到 RDaaS

从运维和 SRE 的不同说起

IT 运维这个概念是 ITIL 框架中的概念,SRE 并不属于这个概念体系中。在ITIL 的官方文本和主流实践中,SRE 被视为一个来源于Google的、与 ITIL 互补的现代运维实践体系。

传统运维岗位主要追求运维操作执行的效率提升,而 SRE 则更关注操作对线上环境的影响是什么。对于系统稳定性要求高的行业都需要 SRE 这样的岗位对运维风险进行体系化控制。

风险控制策略不同

首先,ITIL 体系中,制度和流程是风险控制的最主要方式,而 SRE 体系中则是通过数据反馈出来的对系统的影响来驱动风险控制。其次,ITIL 中的故障演练更多是从业务连续性的角度,演练应急协作流畅度等,而 SRE 体系则更注重技术架构的韧性,即通过混沌工程等工具,在生产环境注入故障的方式验证系统的弹性和容错性。

风险防控架构模式

风险防控作为操作行为的影响评估系统,跟变更执行并行,将风险触达到正确的人,本质上是一种服务。国内蚂蚁将其称之为 TRaaS,将风险防控作为一种服务,面向运维平台提供风险感知和控制服务。

风险防控服务的能力边界

这里大家通常会产生一个认知误区,我这个平台接入了风险防控服务,是不是就可以做任何操作都不会引起故障了。准确来说,不是的。风险控制的目标不是杜绝任何故障的发生,而是让运维操作的结果从不可控变得可控。以杜绝任何故障的发生为风险防控工作的目标不现实,也不经济。

如果以 0 变更故障作为导向,则大家则会最大限度去规避变更,这样一次变更则是一次大版本升级,很容易造成灾难级别故障。实际的做法是通过故障预算的形式,通过权衡稳定性和创新性,确保有一定的灵活度。

简单来说,平台是道路和交规,变更人是司机,总之,平台基于硬性规定做自动化检查和数据支撑,人做最终的决策。

如何证明平台的机制

混沌工程演练,待续

相关推荐
行者-全栈开发1 小时前
【运维安全】CVE-2026-46333:Linux内核ptrace权限提升漏洞深度解析与修复指南
运维·linux内核·权限提升·ptrace·cve-2026-46333·ssh-keysign-pwn·安全修复
晚风吹红霞1 小时前
Linux下的趣味编程 —— 进度条、Git版本控制与GDB调试实战
linux·运维·git
nan madol1 小时前
Rocky Linux 9.5 部署 Percona XtraDB Cluster (PXC) 集群
linux·运维·服务器
linux修理工1 小时前
使用 virt-install 命令行快速创建 KVM 虚拟机(以 CentOS 7 为例)
linux·运维·centos
|_⊙1 小时前
进程间通信(System V 标准下的多种通信方式)
linux·运维·服务器
云登指纹浏览器1 小时前
指纹浏览器自动化API对接实战总结:技术方案选型 + 避坑指南
运维·后端·自动化
蹉跎岁月新2 小时前
Jenkins创建一个maven-project
运维·jenkins·maven
原来是猿2 小时前
性能测试(1)
运维·服务器·python·压力测试
为思念酝酿的痛10 小时前
POSIX信号量
linux·运维·服务器·后端