Flink大状态和Checkpoint调优

这个程序猿可太秀了2024-02-08 11:40

文章迁移，待整理

我们生产大多数会使用 fsState ，memState程序挂了状态就丢了，应该没人会在生产使用，但是涉及到一些大状态，fsState效率很低，这时候会选择 rocksDbState

基于 LSM Tree 实现，类似 Hbase 的读写方式，

复制代码

state.backend.local-recovery: true

写数据内存即返回，查数据先查 blockCache，

开启监控会对性能有影响，但是对 rocksDbStateBackend 来说影响不大，大概 1%，但是有监控可以快速定位问题

java 复制代码

-Dstate.backend.latency-track.keyed-state-enabled=true

Flink任务失败时，可以基于本地的状态信息恢复任务

复制代码

state.backend.incremental: true #默认 false，改为 true。

有多块磁盘，可以考虑设置多目录

复制代码

state.backend.rocksdb.localdir: 
/data1/flink/rocksdb,/data2/flink/rocksdb,/data3/flink/rocksdb

一般checkpoint 间隔时长设置为 1-5分钟，比如阿里云我们都使用默认的 180S，但是对于一些大状态尤其是 Hdfs 储存时比较慢，可以设置 5-10分钟，并且设置两次 Checkpoint 至少间隔 4-8分钟