告警事件如何与 CMDB 打通附加更多元信息

告警事件产生之后,会带有一些 labels、annotations、description 等信息,有时这些信息不够规整需要二次处理,有时这些信息不够丰富需要附加更多信息,才方便 SRE 等 OnCall 人员快速定位、解决问题。具体应该如何做?本文会分享一些思路,希望对大家有所帮助。

需求场景举例

为了方便理解,我举几个场景例子:

  • 比如,告警事件中包含 product、service 两个标签,我们可以基于这俩标签拼接出 SOP 地址,方便 OnCall 人员快速查看操作手册;
  • 比如,告警事件中缺少 owner 信息,但是包含机器 IP,我们可以基于机器 IP 查询 CMDB,找到 owner 信息,附加到告警事件中;

思路

大体上,可以把事件的处理看作一个 Pipeline,包含两个重要 Action:Relabel 和 Enrichment,有两个位置适合配置 Action:告警规则那里(用于规则颗粒度的细粒度控制)和 OnCall 中心(一些相对通用的逻辑),下面我们展开说明。

告警规则

一个告警规则通常关联一个监控指标,在告警规则这个颗粒度,会有需求做一些细粒度的处理,比如某个告警规则生成的事件包含很多标签,有些标签想 Drop 掉,或者有些标签想拼接在一起变成一个新标签,都可以使用 Relabel Action 来实现。

下面是夜莺的告警规则中配置事件 relabel 的例子,这个 relabel 和 Prometheus 的 relabel 配置类似,都是基于标签的匹配、替换、删除等操作,只不过 Prometheus 中是对指标做 relabel,夜莺这里是对事件做 relabel:

除了在告警规则颗粒度配置一些事件处理逻辑,还有一些通用逻辑希望在更中心化的地方配置,比如在 OnCall 中心配置事件的处理逻辑。下面我以 Flashduty OnCall 产品举例,看看 Flashduty 的处理思路,供大家参考。

OnCall 中心

OnCall 中心可以对接各类监控系统,比如 Prometheus、Zabbix、Nightingale 等,接收到告警事件之后,会对事件进行一些处理,比如附加更多元信息、降噪、发送通知等。我们可以在 Flashduty 中创建一个上报监控事件的管道(称为 integration),然后在管道后面配置一些事件处理逻辑。整个架构示意图如下:

Flashduty 中可以创建多个 integration(即刚刚提到的管道,在 Flashduty 中称为集成),然后给这个 integration 配置标签增强,目前支持提取标签、组合标签、映射标签、删除标签等操作。

这样一来,只要发往这个 integration(管道)的告警事件,都会经过这个 Pipeline,对事件标签做统一处理。这几个标签操作都可以见名知义,只有映射标签稍微复杂一些,这里额外做一个说明。

映射标签

因为 Flashduty 是一个 SaaS 服务,无法直接访问公司内部的 CMDB,所以我们需要把 CMDB 中的映射数据导入 Flashduty,然后在 Flashduty 中配置映射规则即可。比如服务器 10.68.5.6 的负责人是 zhangsan,我们就可以根据机器信息查询到 zhangsan,然后把 zhangsan 附加到告警事件中。比如:

原始告警事件:

映射规则:

映射结果:

Callback 思路

如果告警引擎可以直接调用公司内部的 API,那么可以直接在告警引擎中配置 Callback,直接调用公司内部的 API,获取元信息,然后附加到告警事件中。这样的话就不需要管理、同步映射数据了。

如果你用过 Flashduty 的告警引擎,通过其 --help 参数就可以看到 -alerter.enrich 相关的配置,就是采用这个思路来做的。

结语

本文以夜莺和 Flashduty 举例,讲解了多种告警事件处理、Enrich 的思路,希望对大家有所帮助。如果你有更好的思路,欢迎留言讨论。夜莺和 Flashduty 的介绍信息如下,可以自行体验:

相关推荐
桂月二二13 分钟前
Spring Boot 与 Kafka 实现高效消息队列通信的最佳实践
spring boot·后端·kafka
NLstudy3321 分钟前
declare和less
linux·运维·服务器
forestqq1 小时前
全网首个详细案例:zabbix7.2 对比老版本API认证方法更新适配实战说明
运维·docker·zabbix
程序员林北北1 小时前
【Golang学习之旅】gRPC 与 REST API 的对比及应用
java·开发语言·后端·学习·云原生·golang
WinsonWu1 小时前
deepseek本地部署(在线、离线)、知识库搭建(个人、组织)与代码接入
人工智能·后端·deepseek
风雨飘逸2 小时前
【shell&bash进阶系列】(四)SHELL脚本--变量(基础)
linux·运维·服务器·开发语言·经验分享·bash
深蓝易网3 小时前
探寻制造型企业MES管理系统:功能、架构与应用全解析
大数据·运维·人工智能·架构·制造·1024程序员节
晴空万里Linux3 小时前
VMware 虚拟机 ubuntu 20.04 扩容工作硬盘
linux·运维·ubuntu
Pandaconda3 小时前
【新人系列】Python 入门(三十):工作常用第三方库 - 上
开发语言·经验分享·笔记·后端·python·面试·第三方库
ZNineSun3 小时前
docker安装StarRocks
运维·docker·容器·startrocks·mmp