flink中值得监控的几个指标

背景

为了维持flink的正常运行,对flink的日常监控就变得很重要,本文我们就来看一下flink中要监控的几个重要的指标

重要的监控指标

1.算子的处理速度的指标:numRecordsInPerSecond/numRecordsOutPerSecond,这有助于你了解到算子的是否正在合理运行

2.应用的监控度: uptime表示应用已经持续运行的时间,numRestarts表示job被重启的次数,重启的原因很多种,比如内存占用过多被killed等

3.检查点健康度: numberOfCompletedCheckpoints表示已经完成的检查点数目, numberOfFailedCheckpoints表示未能完成的检查点数目(比如因为状态太多导致超时等未能完成checkpoint操作),

numberOfInProgressCheckpoints表示正在进行中的检查点数目,lastCheckpointDuration表示检查点的持续时间,过长的时间会导致checkpoint失败,

lastCheckpointFullSize表示检查点的大小,这可以帮你检查应用状态大小是否正常

4.基于事件时间的应用的处理延迟:可以对比eventtime和当前时间的延迟,这可以知道是否发生了数据倾斜等问题,导致watermark一直未能前进

5.jvm和容器指标:Jvm使用的内存/cpu大小,容器使用的内存大小(包括jvm+其他组件)

相关推荐
哲讯智能科技7 分钟前
苏州SAP代理商:哲讯科技助力企业数字化转型
大数据·运维·人工智能
Edingbrugh.南空35 分钟前
Apache Iceberg与Hive集成:分区表篇
大数据·hive·hadoop
武子康41 分钟前
大数据-13-Hive 启动Hive DDL DML 增删改查 操作Hive的HQL
大数据·后端
Cachel wood2 小时前
后端开发:计算机网络、数据库常识
android·大数据·数据库·数据仓库·sql·计算机网络·mysql
得物技术3 小时前
得物社区活动:组件化的演进与实践
java·大数据·前端
Elastic 中国社区官方博客3 小时前
使用 Azure LLM Functions 与 Elasticsearch 构建更智能的查询体验
大数据·人工智能·elasticsearch·microsoft·搜索引擎·全文检索·azure
刘天远4 小时前
深度解析企业风控API技术实践:构建全方位企业风险画像系统
大数据·数据库·数据分析
后院那片海4 小时前
GFS分布式文件系统
大数据·服务器·数据库
IT_10245 小时前
Spring Boot的Security安全控制——应用SpringSecurity!
大数据·spring boot·后端
盟接之桥6 小时前
国产替代新标杆|盟接之桥EDI软件让中国制造连接世界更安全、更简单、更有底气
大数据