flink web监控

作者:南墨

监控指标

进入Flink的原生页面,需要从yarn的原生页面的后台链接进入,如下图:

这里必须要用supergroup组的用户或者flink提交任务的用户(如果该用户是机机用户不能登录)才能够看到任务。

系统监控

Flink的原生页面首页是任务的执行概要页面。其中主要关注的点如下:

1、 taskmanager的数量:一个taskmanager是nodemanager上面启动的一个进程,占用一个container。

2、 已使用slot的数量:表示使用的slot的数量,这里要注意,taskmanager一般跟slot数量是一个比例关系,在图中"Avaliable Task slots"+"Taskslots"表示这个集群中的总slot的数量。

3、 Jopid:代表这个flink任务的id。

反压监控

反压监控表示了在每个算子的并行度中buffer所挤压的数据。正常情况下有三种状态,"high""OK""low"。

High:表示队列中的数据已经挤压到90%以上

OK:表示没有

Low:表示在50%左右。

如果所有算子都是OK则表示没有反压,如果第一个算子是high,需要向下找算子中第一个出现OK的算子,那么这个处于OK状态的算子就是整个链路的处理瓶颈。

Checkpoint监控

检查点监控能够说明业务运行过程中每个检查点的运行状态和运行结果。

Overview :整个checkpoint阶段的概览,需要重点关注的点包括:

a) Overview:整体checkpoint的概览,包括,trigger,触发了多少次、in Progress 正在运行中的数量Completed已完成的数量,failed的数量。

需要注意的是,在Latest Completed Checkpoint后面的More detail中,能够看到每个checkpoint在每个算子中的耗时,耗时能够反映算子打checkpoint的耗时

b) History和Summary页面

这个页面能够看到每个checkpoint的耗时,如果耗时是平均的,那么能够说明整个任务链的是健壮的;如果checkpoint的耗时是逐渐递增的说明任务链极有可能存在严重的背压,导致每次checkpoint的耗时都非常的长。

Summary页面中显示了这个所有checkpoint中统计的平均值

c) Configuration页面

这个页面显示了checkpoint的一些配置,这些配置可以在代码中设置。

更多技术信息请查看云掣官网https://yunche.pro/?t=yrgw

相关推荐
数研小生4 分钟前
做京东评论分析系统11年,京东评论数据接口解析
大数据
金融小师妹26 分钟前
基于LSTM-GARCH-EVT混合模型的贵金属极端波动解析:黄金白银双双反弹的逻辑验证
大数据·人工智能·深度学习·机器学习
yumgpkpm2 小时前
2026软件:白嫖,开源,外包,招标,晚进场(2025年下半年),数科,AI...中国的企业软件产业出路
大数据·人工智能·hadoop·算法·kafka·开源·cloudera
xixixi777773 小时前
今日 AI 、通信、安全行业前沿日报(2026 年 2 月 4 日,星期三)
大数据·人工智能·安全·ai·大模型·通信·卫星通信
珠海西格4 小时前
1MW光伏项目“四可”装置改造:逆变器兼容性评估方法详解
大数据·运维·服务器·云计算·能源
迎仔5 小时前
13-云原生大数据架构介绍:大数据世界的“弹性城市”
大数据·云原生·架构
产品人卫朋5 小时前
卫朋:IPD流程落地 - 市场地图拆解篇
大数据·人工智能·物联网
TDengine (老段)5 小时前
通过云服务 快速体验 TDengine
大数据·数据库·物联网·时序数据库·tdengine·涛思数据·iotdb
硅基流动6 小时前
从云原生到 AI 的跃迁探索之路|开发者说
大数据·人工智能·云原生
星辰_mya6 小时前
Elasticsearch——待补充
大数据·elasticsearch·搜索引擎