Flink checkpoint问题排查指南

之前只因为checkpoint过大碰到过checkpoint失败的情况,没想到数据倾斜也会导致

我们知道 task 仅在接受到所有的 barrier 之后才会进行 snapshot,如果作业存在反压,或者有数据倾斜,则会导致全部的 channel 或者某些 channel 的 barrier 发送慢,从而整体影响 Checkpoint 的时间,这两个可以通过如下的页面进行检查:

Apache Flink学习网

相关推荐
武子康9 小时前
大数据-129 - Flink CEP详解:实时流式复杂事件处理(Complex Event Processing)全解析
大数据·后端·flink
武子康1 天前
大数据-128 - Flink 并行度详解:从概念到最佳实践,一文读懂任务并行执行机制 代码示例与性能优化
大数据·后端·flink
Hello.Reader1 天前
Flink Data Source 理论与实践架构、时序一致性、容错恢复、吞吐建模与实现模式
架构·flink·linq
Hello.Reader2 天前
Flink 受管状态的自定义序列化原理、实践与可演进设计
java·网络·flink
笔生花2 天前
【实战-12】flink版本表
数据库·sql·flink
万琛2 天前
Flink1.20 CEP【水位线异常原因深度分析】
flink
板凳坐着晒太阳2 天前
Flink 作业通用优化方案
大数据·flink
武子康2 天前
大数据-127 - Flink StateBackend详解:Memory、Fs、RocksDB 与 OperatorState 管理机制与重分配原理
大数据·后端·flink
Hello.Reader2 天前
Flink 窗口 Join 与区间 Join 实战详解
大数据·flink
Hello.Reader3 天前
Flink 第三方序列化Kryo 注册、Protobuf/Thrift 接入与坑位避雷
大数据·flink