OpenSREClaw - 从 AIOps 到 RDaaS

从运维和 SRE 的不同说起

IT 运维这个概念是 ITIL 框架中的概念,SRE 并不属于这个概念体系中。在ITIL 的官方文本和主流实践中,SRE 被视为一个来源于Google的、与 ITIL 互补的现代运维实践体系。

传统运维岗位主要追求运维操作执行的效率提升,而 SRE 则更关注操作对线上环境的影响是什么。对于系统稳定性要求高的行业都需要 SRE 这样的岗位对运维风险进行体系化控制。

风险控制策略不同

首先,ITIL 体系中,制度和流程是风险控制的最主要方式,而 SRE 体系中则是通过数据反馈出来的对系统的影响来驱动风险控制。其次,ITIL 中的故障演练更多是从业务连续性的角度,演练应急协作流畅度等,而 SRE 体系则更注重技术架构的韧性,即通过混沌工程等工具,在生产环境注入故障的方式验证系统的弹性和容错性。

风险防控架构模式

风险防控作为操作行为的影响评估系统,跟变更执行并行,将风险触达到正确的人,本质上是一种服务。国内蚂蚁将其称之为 TRaaS,将风险防控作为一种服务,面向运维平台提供风险感知和控制服务。

风险防控服务的能力边界

这里大家通常会产生一个认知误区,我这个平台接入了风险防控服务,是不是就可以做任何操作都不会引起故障了。准确来说,不是的。风险控制的目标不是杜绝任何故障的发生,而是让运维操作的结果从不可控变得可控。以杜绝任何故障的发生为风险防控工作的目标不现实,也不经济。

如果以 0 变更故障作为导向,则大家则会最大限度去规避变更,这样一次变更则是一次大版本升级,很容易造成灾难级别故障。实际的做法是通过故障预算的形式,通过权衡稳定性和创新性,确保有一定的灵活度。

简单来说,平台是道路和交规,变更人是司机,总之,平台基于硬性规定做自动化检查和数据支撑,人做最终的决策。

如何证明平台的机制

混沌工程演练,待续

相关推荐
用户0328472220709 小时前
如何搭建本地yum源(上)
运维
大树883 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠3 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质3 天前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
Inhand陈工3 天前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信
酣大智3 天前
ARP代理--工作原理
运维·网络·arp·arp代理
shushangyun_3 天前
2026年快消品B2B系统推荐:支持终端门店订货、促销政策自动化的工具?
java·运维·网络·数据库·人工智能·spring·自动化
施努卡机器视觉3 天前
SNK施努卡侧滑门锁上滑轮总成自动化装配线,从零件到组件,全流程精密制造方案
运维·自动化·制造
AC赳赳老秦3 天前
用 OpenClaw 搭建服务器故障应急响应系统,自动处理 80% 常见运维故障
android·运维·服务器·python·rxjava·deepseek·openclaw
java_cj3 天前
深入kube-apiserver认证机制:从Bearer Token到mTLS的完整认证链解析
linux·运维·服务器·云原生·容器·kubernetes