1. 传统混沌工程实施的痛点
1.1. 演练方案设计难度大
要根据历史故障规律,选择高价值的场景来故障注入,需要 SRE 架构师有非常深的稳定性专业知识背景,同时对过往故障的本质原因了如指掌,并且还要对技术风险控制体系非常清楚。因此,设计演练方案设计是一项难度很高的工作。
1.2. 演练配套技术成本高
要支撑好演练落地,不仅要开发很多一次性"胶水代码",实现时序控制、结果校验,而且这些代码通常都未经过严格测试,缺少日志打印规范等约束,一旦越界失控影响生产则难以溯源原因,例如权限越界在金融等领域会引发监管风险。
1.3. 演练总结和沉淀难度高
演练投入巨大,对演练进行总结后将经验沉淀复用才是演练的根本目的。传统混沌工程演练实施后,需要投入很大精力收集过程数据、对数据分析后开展演练总结、最后将演练经验宣贯,落地周期长,高价值经验随着时间会逐渐淡忘。
如何破解传统混沌工程痛点
AI 辅助演练方案设计
演练方案的输入是大量的故障复盘文档,稳定性风险梳理材料,制度规范材料等,AI 可以快速完成背景认知的构建,从历史故障中识别出高价值场景,同时给出演练目标、操作步骤、验证方式等关键要素。
AI 辅助代码编写和质量保障
AI Coding 是非常成熟的场景,基于演练要求编写代码,同时通过 Agent 对代码质量进行校验,同时还可以让 AI 模拟演练,评估是否满足预期要求。
AI 辅助演练总结和知识沉淀
基于演练过程中的监控、告警、响应操作,快速还原演练现场。跟演练预期对比发现差异,分析原因,形成知识经验。
待续