Flink checkpoint问题排查指南

之前只因为checkpoint过大碰到过checkpoint失败的情况,没想到数据倾斜也会导致

我们知道 task 仅在接受到所有的 barrier 之后才会进行 snapshot,如果作业存在反压,或者有数据倾斜,则会导致全部的 channel 或者某些 channel 的 barrier 发送慢,从而整体影响 Checkpoint 的时间,这两个可以通过如下的页面进行检查:

Apache Flink学习网

相关推荐
Jackeyzhe1 小时前
Flink学习笔记:如何做容错
flink
expect7g7 小时前
Paimon源码解读 -- Compaction-6.CompactStrategy
大数据·后端·flink
Hello.Reader8 小时前
Flink SQL Top-N 深度从“实时榜单”到“少写点数据”
大数据·sql·flink
Hello.Reader13 小时前
Flink SQL Window Top-N窗口榜单的正确打开方式
数据库·sql·flink
Hello.Reader13 小时前
Flink SQL Deduplication用 ROW_NUMBER 做流式去重
大数据·sql·flink
鹿衔`13 小时前
Apache Doris 4.0.1 集群部署与 Paimon 数据湖集成实战文档
flink·apache·doris·paimon
expect7g1 天前
Paimon源码解读 -- Compaction-4.KeyValueFileStoreWrite
大数据·flink
expect7g1 天前
Paimon源码解读 -- FULL_COMPACTION_DELTA_COMMITS
大数据·后端·flink
梦里不知身是客111 天前
flink使用 DefaultResourceCalculator(默认资源计算器) 策略
大数据·flink
Jackyzhe1 天前
Flink学习笔记:反压
大数据·flink