flink学习-状态管理

taotaobujuerulv2024-06-15 19:57

状态管理

在flink中，算子可以分为无状态和有状态两种情况。

无状态的算子只需要观察每个独立事件，根据当前输入的数据直接输出结果。像：filter、flatMap、map都属于无状态的算子。

有状态的算子则是除当前数据之外，还需要一些其他数据来计算结果。这里说的其他数据其实就是指状态，聚合算子，窗口算子都应该算是有状态的算子。

状态也可以分为两种，一种是算子状态，一种是按键分区状态（只有进行key 进行分组的）

值状态
值状态就是状态中只保存一个值
列表状态
用List的形式存储状态，主要有的方法：get（获取列表状态，返回值迭代类型）；update（更新list状态）、add（添加一个元素）、addAll（添加多个）、clear（清空）
Map状态
用map形式存储状态。
规约状态
聚合状态

因为状态如果长时间保存会导致存储耗尽，通过设置状态的ttl，可以自动清除没有用的状态，当状态在内存中存在的时间超过这个值，就将它清除。

在算子状态中，一个子任务就是一个整体

主要几种类型：列表状态、联合列表状态、广播状态

在算子状态中可以进行初始化后，进行持久化防止异常退出时丢失算子状态，

列表状态和联合列表状态区别在于：并行度改变后如何重新分配，list状态：轮询均分给新的并行子任务；unionlist状态：原先多个子任务的状态，合并成一份完成的，分配给每个新的算子一整份。

广播状态：可以作为配置流进行配置，可以实时修改配置。

状态后端分类

HashMapStateBacked (哈希表状态后端，使用内存，保存在TaskManager JVM堆，默认使用)

EmbeddedRocksDBStateBackend（内嵌RocksDB状态后端，kv存储，持久化到磁盘，数据存储需要序列化）