Flink pushGateway监控

java 复制代码
metrics:
  reporter:
    promgateway:
      factory:
        class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporterFactory
      hostUrl: http://hadoop31:9091
      jobName: flink-application
      randomJobNameSuffix: true
      deleteOnShutdown: false
      interval: 30 SECONDS

2、添加依赖

flink-metrics-prometheus-1.20.0.jar

3、启动观察关键日志

java 复制代码
LOG.info(
                "Configured PrometheusPushGatewayReporter with {hostUrl:{}, jobName:{}, randomJobNameSuffix:{}, deleteOnShutdown:{}, groupingKey:{}}",
                hostUrl,
                jobName,
                randomSuffix,
                deleteOnShutdown,
                groupingKey);

https://nightlies.apache.org/flink/flink-docs-release-2.0/docs/ops/metrics/#metric-types

1、作业级指标(Job-Level Metrics)

  • numRestarts: 作业从启动以来的重启次数,反映作业的稳定性。
  • uptime: 作业持续运行时间,用于评估作业的可靠性。
  • downtime: 作业停止运行的时间(如故障恢复期间)。
  • checkpoint 相关指标 *:
    • lastCheckpointSize: 最近一次检查点(Checkpoint)的大小。
    • lastCheckpointDuration: 最近一次检查点的完成耗时。
    • checkpointFailuresPerMinute: 每分钟检查点失败的次数,高值可能意味着资源不足或状态后端问题。

2、任务级指标(Task-Level Metrics)

  • numRecordsIn/Out: 每个任务每秒处理的输入/输出记录数,反映吞吐量。
  • latency : 记录从进入任务到处理完成的延迟,通常分为分位数(如 p50, p95, p99),用于衡量实时性。
  • backPressureTime: 任务因下游处理能力不足而处于背压(Backpressure)状态的时间占比,高值需优化下游性能。
  • bufferQueueLength: 输入缓冲队列的长度,队列过长可能导致延迟增加。

3、操作符级指标(Operator-Level Metrics)

  • numRecordsIn/Out: 每个操作符(如 Map、Filter)处理的记录数。
  • currentInputWatermark: 当前输入数据的水位线(Watermark),用于事件时间处理。
  • processTime: 操作符处理单条记录的平均耗时。
  • stateSize: 操作符状态(如窗口状态)的大小,过大可能影响检查点性能。

4、系统资源指标(Resource Metrics)

  • CPU/Memory 使用率:
    • cpuUsage: 任务管理器(TaskManager)的 CPU 使用率。
    • heapUsed: JVM 堆内存使用量,过高可能导致 GC 停顿。
  • 网络指标:
    • outputQueueLength: 网络输出队列长度,反映跨任务数据传输的负载。
    • numBytesIn/OutPerSecond: 每秒网络传输的字节数。

4、容错与检查点(Fault Tolerance)

  • checkpointAlignmentTime: 检查点对齐时间(等待所有任务同步的时间),过长可能因数据倾斜导致。
  • checkpointStartDelay: 检查点启动延迟,高值可能因资源争用引起。

https://grafana.com/grafana/dashboards/14161-flink-job-metrics/

相关推荐
尽兴-16 分钟前
Elasticsearch 高可用集群架构:Master 选举、Shard 分配与容灾设计
大数据·elasticsearch·架构·集群·节点·可视化工具·分片
Elastic 中国社区官方博客21 分钟前
从 Elasticsearch runtime fields 到 ES|QL:将传统工具适配到当前技术
大数据·数据库·sql·elasticsearch·搜索引擎·全文检索
万琛25 分钟前
【Flink_CEP】MySQL 动态规则 + Kafka 实时流 + Flink CEP 后缀收集的实战方案
mysql·flink·kafka
沫儿笙25 分钟前
KUKA库卡焊接机器人智能节气仪
大数据·人工智能·机器人
Jane - UTS 数据传输系统1 小时前
从 WDO 成立看跨境数据同步:架构设计、技术拆解与最佳实践
大数据·数据库·国产替代·wdo·跨境数据同步·数据异构
源码之家1 小时前
计算机毕业设计:汽车销售数据采集分析系统 Flask框架 requests爬虫 可视化 数据分析 大数据 机器学习 大模型(建议收藏)✅
大数据·爬虫·python·信息可视化·flask·汽车·课程设计
冯RI375II694871 小时前
UN38.3报告运输鉴定书是什么?
大数据
2601_955363151 小时前
技术迭代下B端拓客:号码核验的行业进化与价值回归,氪迹科技法人股东号码筛选系统,阶梯式价格
大数据·人工智能
AI先驱体验官13 小时前
智能体变现:从技术实现到产品化的实践路径
大数据·人工智能·深度学习·重构·aigc
TDengine (老段)14 小时前
TDengine IDMP 工业数据建模 —— 属性
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据