【运维监控】Prometheus+grafana监控flink运行情况


文章目录


  • 本示例通过flink自带的监控信息暴露出来,然后将数据收集到prometheus中,最后通过grafana的dashboard导入模板进行可视化。
  • 本示例分为四个部分,即prometheus、grafana部署、flink配置修改和最后的集成。
  • 说明:本示例中的部署环境没有要求,即应用部署的机器根据实际情况而定,只要网络连通即可。

一、prometheus

参考:【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况关于prometheus的部署。

二、grafana

参考:【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况 关于grafana的部署。

三、flink配置修改

flink的部署请参考文章:1、Flink1.12.7或1.13.5详细介绍及本地安装部署、验证

在该文章的基础上,增加如下配置,修改的是flink-conf.yaml配置文件。

yml 复制代码
metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory

配置文件保存后,重启flink集群。由于是集群环境,所以需要将整个集群的配置文件都需要修改,端口可以设置,也可以不设置,不设置端口,默认的是9249。

flink集群启动后,集群的任意服务器都可以按照如下方式访问暴露的指标数据,形如http://server4:9249/,图示如下。

1、修改prometheus配置文件

在prometheus的配置文件(prometheus.yml)中添加如下配置部分。作者的flink是集群高可用环境,即jobmanager部署在server1、server2上,taskmanager部署在server1、server2和server3服务器上。

bash 复制代码
  - job_name: "flink-job-manger"
    static_configs:
      - targets: [ "server1:9249","server2:9249" ]
    metrics_path: /
  - job_name: "flink-task-manger"
    static_configs:
      - targets: [ "server2:9249","server3:9249","server4:9249" ]
    metrics_path: /

重启prometheus后,并验证是否收集到监控信息。

查看Prometheus是否监控到运行的flink应用如下图。

查看prometheus是否收集到监控信息如下图(查询flink_taskmanager_Status_Shuffle_Netty_UsedMemory)

2、导入grafana模板

导入过程不再赘述,参考文章:【运维监控】Prometheus+grafana监控tomcat8.5 运行情况

本示例导入的模板ID是14911(Apache Flink (2021) Dashboard for Job / Task Manager)。

3、验证

以上所涉及的服务均能正常的运行,以及验证都通过。

点击添加的flink模板,则显示如下图所示。(如果想显示的数据比较多,则需要使用flink做一些复杂的任务,否则有些数据可能没有。)

  • Job Manager (JVM - CPU)
  • Job Manager (JVM - Memory Usage)
  • Job Manager (JVM - Garbage Collector)
  • Job Manager (Slots & Jobs)
  • Job Manager (Checkpoints)
  • Task Manager (JVM - CPU)
  • Task Manager (JVM - Memory Usage)
  • Task Manager (JVM - Garbage Collector) 和Task Manager (Memory - Flink)
  • Task Manager (Memory - Shuffle Netty)
  • Task Manager (Job Task - Diag)
  • Task Manager (Job Task - General)



    以上,完成了Prometheus+grafana监控flink运行情况示例。
相关推荐
我是章汕呐几秒前
政策评估的“黄金标准”:DID模型从原理到Stata实操
大数据·人工智能·经验分享·算法·回归
funnycoffee123几秒前
华为USG防火墙的HRP逃逸是什么机制?
运维·服务器·网络·华为usg
Data-Miner17 分钟前
54页可编辑PPT | 数据中台建设方案汇报
大数据·人工智能
开开心心就好24 分钟前
能把网页藏在Word里的实用摸鱼工具
linux·运维·服务器·windows·随机森林·逻辑回归·excel
搜狐技术产品小编202339 分钟前
智能代码审查基于大语言模型的自动化代码质量保障平台设计与实践
运维·人工智能·语言模型·自然语言处理·自动化
皮皮学姐分享-ppx1 小时前
1447上市公司数字化转型速度的计算(2000-2022年)
大数据·人工智能
何中应1 小时前
如何给虚拟机系统扩容
linux·运维·服务器
才盛智能科技1 小时前
麦粒空间和元K聚合平台正式签约,全面启动流量合作
大数据·人工智能·元k聚合·麦粒空间
V搜xhliang02461 小时前
基于¹⁸F-FDG PET/CT的深度学习-影像组学-临床模型预测非小细胞肺癌脉管侵犯的价值
大数据·人工智能·python·深度学习·机器学习·机器人
沐雪轻挽萤1 小时前
无人系统:Ubuntu 操作系统全景架构与实战工程指南
linux·运维·ubuntu