【运维监控】Prometheus+grafana监控flink运行情况


文章目录


  • 本示例通过flink自带的监控信息暴露出来,然后将数据收集到prometheus中,最后通过grafana的dashboard导入模板进行可视化。
  • 本示例分为四个部分,即prometheus、grafana部署、flink配置修改和最后的集成。
  • 说明:本示例中的部署环境没有要求,即应用部署的机器根据实际情况而定,只要网络连通即可。

一、prometheus

参考:【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况关于prometheus的部署。

二、grafana

参考:【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况 关于grafana的部署。

三、flink配置修改

flink的部署请参考文章:1、Flink1.12.7或1.13.5详细介绍及本地安装部署、验证

在该文章的基础上,增加如下配置,修改的是flink-conf.yaml配置文件。

yml 复制代码
metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory

配置文件保存后,重启flink集群。由于是集群环境,所以需要将整个集群的配置文件都需要修改,端口可以设置,也可以不设置,不设置端口,默认的是9249。

flink集群启动后,集群的任意服务器都可以按照如下方式访问暴露的指标数据,形如http://server4:9249/,图示如下。

1、修改prometheus配置文件

在prometheus的配置文件(prometheus.yml)中添加如下配置部分。作者的flink是集群高可用环境,即jobmanager部署在server1、server2上,taskmanager部署在server1、server2和server3服务器上。

bash 复制代码
  - job_name: "flink-job-manger"
    static_configs:
      - targets: [ "server1:9249","server2:9249" ]
    metrics_path: /
  - job_name: "flink-task-manger"
    static_configs:
      - targets: [ "server2:9249","server3:9249","server4:9249" ]
    metrics_path: /

重启prometheus后,并验证是否收集到监控信息。

查看Prometheus是否监控到运行的flink应用如下图。

查看prometheus是否收集到监控信息如下图(查询flink_taskmanager_Status_Shuffle_Netty_UsedMemory)

2、导入grafana模板

导入过程不再赘述,参考文章:【运维监控】Prometheus+grafana监控tomcat8.5 运行情况

本示例导入的模板ID是14911(Apache Flink (2021) Dashboard for Job / Task Manager)。

3、验证

以上所涉及的服务均能正常的运行,以及验证都通过。

点击添加的flink模板,则显示如下图所示。(如果想显示的数据比较多,则需要使用flink做一些复杂的任务,否则有些数据可能没有。)

  • Job Manager (JVM - CPU)
  • Job Manager (JVM - Memory Usage)
  • Job Manager (JVM - Garbage Collector)
  • Job Manager (Slots & Jobs)
  • Job Manager (Checkpoints)
  • Task Manager (JVM - CPU)
  • Task Manager (JVM - Memory Usage)
  • Task Manager (JVM - Garbage Collector) 和Task Manager (Memory - Flink)
  • Task Manager (Memory - Shuffle Netty)
  • Task Manager (Job Task - Diag)
  • Task Manager (Job Task - General)



    以上,完成了Prometheus+grafana监控flink运行情况示例。
相关推荐
大树881 小时前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠1 小时前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
大志哥1231 小时前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
霸道流氓气质2 小时前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
Inhand陈工3 小时前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信
果丁智能3 小时前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
酣大智3 小时前
ARP代理--工作原理
运维·网络·arp·arp代理
ApacheSeaTunnel3 小时前
实战演示 | 基于 Apache SeaTunnel 与 Apache DolphinScheduler 实现 MySQL 到 Doris 离线定时增量同步
大数据·mysql·开源·doris·数据集成·seatunnel·数据同步
shushangyun_3 小时前
2026年快消品B2B系统推荐:支持终端门店订货、促销政策自动化的工具?
java·运维·网络·数据库·人工智能·spring·自动化
weixin_397574094 小时前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf