微服务的可观测性

微服务是是一个大型的分布式系统,服务之间相互依赖支撑系统功能。同时对微服务系统的监控也是微服务体系的重要组成分。对微服务系统的监控主要分为三大部分,Trace追踪,Metrics指标,Log日志。

这三大部分几乎记录了微服务的前部信息,通过这些信息就可以了解系统的状态。为实现记录这些信息,诞生了众多微服务的组件,完成各个功能。

  • trace:链路追踪是一种技术,用于跟踪和监视分布式系统中请求的传播路径和服务之间的调用关系。在微服务架构中,一个应用程序通常由多个微服务组成,它们分布在不同的服务器上,相互之间通过网络进行通信。
    链路追踪的主要目的是帮助开发人员和运维团队理解和监视分布式系统中请求的传播路径,以及每个服务处理请求所花费的时间。
    实现原理是,跟踪器(Tracer): 负责记录请求的传播路径和服务之间的调用关系,以及每个服务处理请求所花费的时间。Span: 代表一个请求的一部分操作或事件,包括操作名称、开始时间、结束时间、标签和日志等信息。每个服务处理请求时会创建一个或多个 Span。上下文传播(Context Propagation): 用于在服务之间传递跟踪信息,以确保每个请求的完整链路信息都能被收集和记录。

链路追踪的主要实现框架有opentracing,opentelemetry等。可视化UI工具有Jaeger,Zipkin
不论使用何种框架,链路追踪都包括代码埋点数据存储查询展示三部分,前两部分都是代码入侵的。jaeger和zipkin等链路追踪框架提供了一整套的埋点,存储,查询的方案,但是框架都是私有性不兼容,因此使用兼容性好的opentraing,otel的SDK使用统一的规范添加埋点与存储数据,将数据暴露到指定端口即可,可视化UI工具从接口获取数据。

  • metrics:微服务指标监控是一种用于监视和评估微服务架构中各个服务的性能、可用性和健康状况的技术。在微服务架构中,一个应用程序通常由多个微服务组成,它们分布在不同的服务器上,并通过网络进行通信。微服务指标监控旨在收集、存储和分析与这些服务相关的各种性能指标,以便了解系统的整体运行情况,并及时发现和解决潜在的问题。
    实现原理:性能指标(Performance Metrics),包括服务的响应时间、请求处理速率、CPU利用率、内存使用量、网络流量等指标;可用性指标(Availability Metrics):,包括服务的可用性、错误率、故障率等指标;资源利用率指标(Resource Utilization Metrics), 包括服务器的 CPU、内存、磁盘和网络等资源的利用率;警报和通知(Alerting and Notification):,根据预先定义的阈值和规则,对监控数据进行实时分析,并在发现异常或超出阈值时触发警报和通知。

指标监控的框架有prometheusZabbix等。可视化工具有GarafanaPrometheus UI
指标监控通常没有代码入侵,只需要实现配置类即可。

  • log:在分布式系统中,众多服务分散部署的服务器上,要想快速方便的实现查找、分析和归档等功能是十分棘手的,日志系统就是将各个不同的服务器上面的日志收集在一起,方便快速查找到相应的日志。常见的日志系统ELK(ElasticSearch,Logstash、Kibana(ui)这三个组件构成),另外还有很多日志采集框架,这里推荐loki+Grafana的轻量级框架。

OpenTelemetry为了实现其可观测性有三大体系:Trace追踪,Metrics指标,Log日志。

Trace用于链路追踪,跟踪服务的调用过程帮助快速定位出现的问题。

Metrics用于了解系统的资源利用情况,包括 CPU、内存、磁盘空间等,实现资源合理分化。

日志用于记录了系统运行时的各种信息,包括错误、异常、警告等。通过分析日志,可以快速定位系统出现的故障和问题。

这三个指标也是OpenTelemetry的三大体系。otel的不用体系采集不用信息,但是otel本身不提供可视化工具,而是提供Exporter最为三方工具的api。

常见的Trace的实现方案otel + jaeger,otel采集数据,jaeger显示数据;Metrics的实现方案promethus + grafana ; 日志的实现方案Loki + grafana

openTelemetry
Jaeger

promethus

grafana

loki

相关推荐
要开心吖ZSH15 分钟前
微服务架构的演进:迈向云原生
java·微服务·云原生
搬砖的小码农_Sky37 分钟前
XILINX Zynq-7000系列FPGA的架构
fpga开发·架构
weixin_399380691 小时前
k8s一键部署tongweb企业版7049m6(by why+lqw)
java·linux·运维·服务器·云原生·容器·kubernetes
阿巴~阿巴~1 小时前
Linux基本命令篇 —— uname命令
linux·运维·服务器
IT成长日记2 小时前
【Docker基础】Docker数据卷管理:docker volume ls及其参数详解
运维·docker·容器·volume ls
zkmall3 小时前
企业电商解决方案哪家好?ZKmall模块商城全渠道支持 + 定制化服务更省心
大数据·运维·重构·架构·开源
绝不偷吃5 小时前
ELK日志分析系统
运维·elk·jenkins
朱包林6 小时前
day45-nginx复杂跳转与https
linux·运维·服务器·网络·云计算
孙克旭_6 小时前
day045-nginx跳转功能补充与https
linux·运维·nginx·https
美狐美颜sdk7 小时前
跨平台直播美颜SDK集成实录:Android/iOS如何适配贴纸功能
android·人工智能·ios·架构·音视频·美颜sdk·第三方美颜sdk