告警事件如何与 CMDB 打通附加更多元信息

告警事件产生之后,会带有一些 labels、annotations、description 等信息,有时这些信息不够规整需要二次处理,有时这些信息不够丰富需要附加更多信息,才方便 SRE 等 OnCall 人员快速定位、解决问题。具体应该如何做?本文会分享一些思路,希望对大家有所帮助。

需求场景举例

为了方便理解,我举几个场景例子:

  • 比如,告警事件中包含 product、service 两个标签,我们可以基于这俩标签拼接出 SOP 地址,方便 OnCall 人员快速查看操作手册;
  • 比如,告警事件中缺少 owner 信息,但是包含机器 IP,我们可以基于机器 IP 查询 CMDB,找到 owner 信息,附加到告警事件中;

思路

大体上,可以把事件的处理看作一个 Pipeline,包含两个重要 Action:Relabel 和 Enrichment,有两个位置适合配置 Action:告警规则那里(用于规则颗粒度的细粒度控制)和 OnCall 中心(一些相对通用的逻辑),下面我们展开说明。

告警规则

一个告警规则通常关联一个监控指标,在告警规则这个颗粒度,会有需求做一些细粒度的处理,比如某个告警规则生成的事件包含很多标签,有些标签想 Drop 掉,或者有些标签想拼接在一起变成一个新标签,都可以使用 Relabel Action 来实现。

下面是夜莺的告警规则中配置事件 relabel 的例子,这个 relabel 和 Prometheus 的 relabel 配置类似,都是基于标签的匹配、替换、删除等操作,只不过 Prometheus 中是对指标做 relabel,夜莺这里是对事件做 relabel:

除了在告警规则颗粒度配置一些事件处理逻辑,还有一些通用逻辑希望在更中心化的地方配置,比如在 OnCall 中心配置事件的处理逻辑。下面我以 Flashduty OnCall 产品举例,看看 Flashduty 的处理思路,供大家参考。

OnCall 中心

OnCall 中心可以对接各类监控系统,比如 Prometheus、Zabbix、Nightingale 等,接收到告警事件之后,会对事件进行一些处理,比如附加更多元信息、降噪、发送通知等。我们可以在 Flashduty 中创建一个上报监控事件的管道(称为 integration),然后在管道后面配置一些事件处理逻辑。整个架构示意图如下:

Flashduty 中可以创建多个 integration(即刚刚提到的管道,在 Flashduty 中称为集成),然后给这个 integration 配置标签增强,目前支持提取标签、组合标签、映射标签、删除标签等操作。

这样一来,只要发往这个 integration(管道)的告警事件,都会经过这个 Pipeline,对事件标签做统一处理。这几个标签操作都可以见名知义,只有映射标签稍微复杂一些,这里额外做一个说明。

映射标签

因为 Flashduty 是一个 SaaS 服务,无法直接访问公司内部的 CMDB,所以我们需要把 CMDB 中的映射数据导入 Flashduty,然后在 Flashduty 中配置映射规则即可。比如服务器 10.68.5.6 的负责人是 zhangsan,我们就可以根据机器信息查询到 zhangsan,然后把 zhangsan 附加到告警事件中。比如:

原始告警事件:

映射规则:

映射结果:

Callback 思路

如果告警引擎可以直接调用公司内部的 API,那么可以直接在告警引擎中配置 Callback,直接调用公司内部的 API,获取元信息,然后附加到告警事件中。这样的话就不需要管理、同步映射数据了。

如果你用过 Flashduty 的告警引擎,通过其 --help 参数就可以看到 -alerter.enrich 相关的配置,就是采用这个思路来做的。

结语

本文以夜莺和 Flashduty 举例,讲解了多种告警事件处理、Enrich 的思路,希望对大家有所帮助。如果你有更好的思路,欢迎留言讨论。夜莺和 Flashduty 的介绍信息如下,可以自行体验:

相关推荐
JustHappy1 天前
古法编程秘籍(七):互联网到底是什么?把两台电脑怎么说话搞懂就够了
前端·后端·网络协议
Hommy881 天前
【剪映小助手】添加图片接口(Add Images)
后端·github·剪映小助手·视频剪辑自动化
鹤落晴春1 天前
RH124问答3:从命令行管理文件
linux·运维·服务器
GetcharZp1 天前
别再盲目用 OpenCV 读图了,这才是 CV 预处理的终极杀手锏!
后端
guslegend1 天前
大模型驱动大数据SRE智能运维
大数据·运维
遇见火星1 天前
Docker Compose 完全入门:一键启动所有容器
运维·docker·容器·docker compose
小啊曼1 天前
CIO实战方法论_11_组织变革打破部门墙
运维
❀搜不到1 天前
远程服务器codex使用本地cc-switch的deepseek api
运维·服务器
虾壳云官方1 天前
OpenClaw 2.7.9 Windows 一键部署教程:零基础也能搭建 AI 自动化助手
运维·人工智能·windows·自动化·openclaw·openclaw一键部署
江南风月1 天前
WGCLOUD保姆级教程最新版整理
运维·zabbix·运维开发·prometheus·日志审计