flink中值得监控的几个指标

背景

为了维持flink的正常运行,对flink的日常监控就变得很重要,本文我们就来看一下flink中要监控的几个重要的指标

重要的监控指标

1.算子的处理速度的指标:numRecordsInPerSecond/numRecordsOutPerSecond,这有助于你了解到算子的是否正在合理运行

2.应用的监控度: uptime表示应用已经持续运行的时间,numRestarts表示job被重启的次数,重启的原因很多种,比如内存占用过多被killed等

3.检查点健康度: numberOfCompletedCheckpoints表示已经完成的检查点数目, numberOfFailedCheckpoints表示未能完成的检查点数目(比如因为状态太多导致超时等未能完成checkpoint操作),

numberOfInProgressCheckpoints表示正在进行中的检查点数目,lastCheckpointDuration表示检查点的持续时间,过长的时间会导致checkpoint失败,

lastCheckpointFullSize表示检查点的大小,这可以帮你检查应用状态大小是否正常

4.基于事件时间的应用的处理延迟:可以对比eventtime和当前时间的延迟,这可以知道是否发生了数据倾斜等问题,导致watermark一直未能前进

5.jvm和容器指标:Jvm使用的内存/cpu大小,容器使用的内存大小(包括jvm+其他组件)

相关推荐
java_logo4 小时前
Docker 部署 Elasticsearch 全流程手册
大数据·运维·mongodb·elasticsearch·docker·容器
墨香幽梦客5 小时前
掌控制造脉络:电子元器件行业常用ERP系统概览与参考指南
大数据·人工智能
B站_计算机毕业设计之家5 小时前
python舆情分析可视化系统 情感分析 微博 爬虫 scrapy爬虫技术 朴素贝叶斯分类算法大数据 计算机✅
大数据·爬虫·python·scrapy·数据分析·1024程序员节·舆情分析
汤姆yu5 小时前
2026版基于python大数据的电影分析可视化系统
大数据·python·1024程序员节·电影分析可视化
QMY5205205 小时前
TikTok 独立 IP 解决方案:独享静态住宅 IP + 环境隔离 + 粘性会话
大数据·jupyter·数据挖掘·数据分析·postman·1024程序员节
熟悉的新风景5 小时前
window安装Elasticsearch(es)
大数据·elasticsearch·jenkins
励志成为糕手5 小时前
Hive数据仓库:架构原理与实践指南
大数据·数据仓库·hive·1024程序员节·hql
isNotNullX6 小时前
一文讲清:数据清洗、数据中台、数据仓库、数据治理
大数据·网络·数据库·数据分析·1024程序员节
云飞云共享云桌面6 小时前
苏州精密机械制造企业一台云服务器带8个SolidWorks研发
大数据·运维·服务器·自动化·制造
墨香幽梦客6 小时前
探索五款主流生产制造ERP,助力注胶工艺高效管理与升级
大数据·制造