无需推翻既有的建设,这个可观测性产品思路清奇

市面上已经有很多开源、商业的可观测性类产品,比如 Zabbix、Prometheus、Nightingale、SigNoz、SkyWalking、ELK 等等,而且各类云厂商也会提供自己的可观测性套件,有些规划混乱的云厂商甚至会提供功能重叠的多套产品,这加剧了企业数据孤岛的现状。来看两组数据:

据不完全统计,一个中型企业,平均会使用 5 种以上的监控工具,而一个大型企业,平均会使用 10 种以上的监控工具。

云上的、云下的,开源的、自建的、商业的,网络的、服务器的、数据库的、中间件的、应用的、业务的,指标的、日志的、链路的、事件的。

大家都想结束这种混乱的局面,但是,又不想完全抛弃现有的建设,毕竟,抛弃现有的建设就意味着否定前人的决策和努力、意味着巨大的迁移成本、意味着各类团队合作的破事接踵而至。

不引入新的数据孤岛,能否用一个产品整合所有这些零散工具,提供更好的数据串联、可观测性能力,加速故障定位?答案是 Yes,给大家推荐一款这样的产品:Flashcat。

Flashcat 是快猫星云以开源夜莺为内核打造的一体化观测平台,有以下特点:

  • 可以直接接入各类监控系统作为数据源,无需推翻既有的建设,快速见效;
  • 如果某个方面的数据缺失,Flashcat 也可以提供补充,比如你们只有 Prometheus 做了指标体系,想要补齐日志体系,Flashcat 可以提供日志体系的能力,包括日志采集、日志ETL、日志存储、日志查询、日志告警等;
  • Flashcat 是"面向故障定位"设计的,沉淀了一些故障定位的方法论和场景,让用户用好各类观测数据,更快地定位故障;

前面两点较容易理解。第三点,来详细说明一下。

其他的观测平台,大都是把数据平铺呈现,功能菜单里直接粗暴的分成指标、日志、链路追踪,甚至指标里继续细分成基础设施、应用、业务等,这样的设计,对于故障定位并不友好。原因是:

  • 用户缺少总览驾驶舱的视角,没法从全局看到系统的健康度;
  • 数据之间缺少联动,需要用户的脑子里有一个全局的模型,才能把各类数据串联起来;比如要查看某个服务的健康状态,需要去指标里查询某些特定指标、去日志里查某些索引、去链路追踪里查某些调用链,不同的数据,有不同的检索方式和关键字,这增加了用户的认知负担;导致,只有资深的运维人员,才能熟练地使用这些工具,运维新手,甚至研发人员都很难用好;导致观测平台很难发挥应有的价值;

Flashcat 的做法,主打一个知识沉淀复用,平时用户定位故障时,先看什么数据,再看什么数据,都可以在 Flashcat 里沉淀下来。把各类数据有机整合呈现,比如:

  • 首先提供全局驾驶舱视角,让用户一目了然的看到各个业务的健康状态
  • 某个核心业务指标出问题了,比如订单量暴跌,用户可以在 Flashcat 里方便看到那些影响订单量的服务的健康状态
  • 某个服务的 5xx 错误率升高了,用户可以在 Flashcat 里方便看到该服务的哪个维度的请求 5xx 了,快速发现数据特征

上图是 Flashcat 的北极星页面,可以清晰看到公司全局六大业务的健康状态,其中电商业务飘红了,有异常,点击详情进去,看看具体是哪个核心业务指标异常了。

详情中可以看到,商品实时下单量这个关键业务指标暴跌,在某些时刻直接跌到0了,这是一个明显的故障,用户可以在暴跌的位置点击鼠标,就可以看到那些相关的服务是否健康,不健康的直接红色标注,用户就可以快速定位到故障服务,比如这里明显看到 电商->订单子系统 功能异常,用户可以直接点击进去,继续下钻排查:

上图是展示的订单子系统的各个功能,大部分功能都是绿色健康的(这里的颜色有很好的引导作用),只有一个"订单提交"的功能红色异常了,继续点击详情,可以看到这个功能的 Performance 数据的历史趋势图:

三张图,分别是关键的 RED 指标:请求量(Request)、成功率/错误率(Error)、Duration(延迟),这里很明显,故障原因就是这个接口的成功率时有掉底。继续点击掉底的位置,可以下钻查看掉底时的日志、链路数据等等,甚至可以对异常区间和正常区间进行自动比对:

系统会分析两个时段各个维度的数据,把差异比较大的维度标注出来。当然,更常见的用法是根据异常指标查看相关日志,并且根据日志里的 traceId 查看链路数据:

上例中异常日志中带有链路 traceId,用户可以直接点击 trace 按钮从日志串联到链路数据:

通过查看链路数据,最终我们发现,这个故障的根因是调用 10.201.0.210:6379 这个 Redis 失败了,抓紧去止损即可。

整个过程看起来要点击好几次,实际上每个地方都有颜色和图形引导,用户操作起来并不复杂,即便是新手,对整个系统不太熟悉,根据观测平台的颜色引导,也能快速定位故障。这,才是一个观测平台应该有的样子!

Flashcat 这种产品思路,是市面上少见的,值得一试。你可以加我微信好友,预约 Flashcat 的产品讲解和演示,或者去我们官网,了解更多产品信息。我们的官网是:https://flashcat.cloud/

相关推荐
SRETalk19 天前
OpenTelemetry 101:面向 IT 领导者和爱好者的非技术指南
可观测性·opentelemetry·otel
SRETalk4 个月前
使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标
可观测性·opentelemetry
夜莺云原生监控4 个月前
2024 年了,IT 运维监控系统都有哪些推荐?
运维·运维开发·prometheus·可观测性
SRETalk4 个月前
2024 年了,IT 运维监控系统都有哪些推荐?
可观测性·observability·开源监控
观测云6 个月前
Datadog Dash 2024 新功能解析
dash·可观测性
观测云6 个月前
APM Profile 在系统可观测体系中的应用
apm·可观测性·profile
观测云7 个月前
案例研究|为什么 CDG 会选择从 DataDog 迁移至观测云?
可观测性
林木森^~^9 个月前
【微服务篇】深入理解微服务可观测性原理(Log,Metric,Trace)
微服务·云原生·架构·可观测性
夜莺云原生监控9 个月前
Flashcat与出行科技企业一起实践多云可观测
运维·可观测性·flashcat