Flink 状态管理

一、状态

流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并且根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过90度时发出告警。有状态的计算则会基于多个事件输出结果。例如,计算过去一小时的平均温度。以及在一分钟之内收到两个相差20度以上的温度读数,则发出告警。

上图中输入数据由黑条表示。无状态流处理每次只转换一条输入记录,并且仅根据最新的输入记录输出结果(白条)。有状态流处理维护所有已处理记录的状态值,并根据每条新输入的记录更新状态,因此输出记录(灰条)反映的是综合考虑多个事件之后的结果

  • 状态由一个任务维护,并且用来计算某个结果的所有数据,都属于这个任务的状态;
  • 可以认为状态就是一个本地变量,可以被任务的业务逻辑访问;
  • Flink 会进行状态管理,包括状态一致性、故障处理以及高校存储和访问,以便开发人员可以专注于应用程序的逻辑;

二、状态的类型

2.1 算子状态

  • 算子状态的作用范围限定为算子任务,由同一并行任务所处理的所有数据都可以访问到相同的状态;
  • 状态对于同意子任务而言是共享的;
  • 算子状态不能由相同或不同算子的另一个子任务访问;

列表状态(List state)

  • 将状态表示为一组数据的列表

联合列表状态(Union list state)

  • 也将状态表示为数据的列表。它与常规列表状态的区别在于发生故障时,从保存点启动应用程序时如何恢复

广播状态(Broadcast state)

  • 如果一个算子有多项任务,而它的每项任务状态又相同,那么这种特殊情况最适合应用广播状态。

2.2 键控状态

  • 键控状态是根据输入数据流中定义的键(key)来维护和访问的;
  • Flink 为每一个 key 维护一个状态实例,并将具有相同键的所有数据都分区到同一个算子任务中,这个任务会维护和处理这个 key 对应的状态;
  • 当任务处理一条数据时,它会自动将状态的访问范围限定为当前数据的key;

值状态(Value state)

  • 将状态表示为单个的值

列表状态(List state)

  • 将状态表示为一组数据的列表

映射状态(Map state)

  • 将状态表示为一组 Key-Value 对

聚合状态(Reducing state & Aggregating state)

  • 将状态表示为一个用于聚合操作的列表

状态后端

状态的存储、访问以及维护,由一个可插入的组件决定,这个组件就叫做状态后端(state backend),状态后端主要负责两件事:本地的状态管理,以及将检查点(checking)状态写入远程存储。

状态后端分类

MemoryStateBackend

  • 内存级的状态后端,会将键控状态作为内存中的对象进行管理,将它们存储在 TaskManager 的 JVM 堆上,而将 checkpoint 存储在 JobManager 的内存中;
  • 特点:快速、低延迟、但不稳定;

FsStateBackend

  • 将 checkpoint 存到远程的持久化文件系统上,而对于本地状态,则跟 MemoryStateBackend 一样,也会存在 TaskManager 的 JVM 堆上;
  • 同时用于内存级的本地访问速度和更好的容错保证;

RocksDBStateBackend

  • 将所有状态序列化后,存入本地的 RocksDB 中存储;
相关推荐
阿星AI工作室4 小时前
刘润年中大课笔记:一句话说清AI落地之战的本质
大数据·人工智能·创业创新·商业
189228048617 小时前
NY352固态MT29F32T08GWLBHD6-24QJ:B
大数据·服务器·人工智能·科技·缓存
不开大的凯20777 小时前
麦当秀AiPPT战略转向:从SaaS订阅迈向Token经济,AI办公定价模式迎来新探索
大数据·人工智能
程序鉴定师8 小时前
西安小程序制作的可靠选择与发展前景
大数据·小程序
黎阳之光8 小时前
黎阳之光:以视频孪生重构智慧医院信息化,打造高标项目核心竞争力
大数据·人工智能·物联网·算法·数字孪生
qziovv8 小时前
Git 回退场景
大数据·git·elasticsearch
清平乐的技术专栏9 小时前
【Flink学习】(五)Flink 并行度与任务链,任务运行核心原理
flink
ZeroNews内网穿透10 小时前
面向 AI 协作的本地客户端能力:ZeroNews Agent Skills
大数据·人工智能·elasticsearch
SelectDB10 小时前
Agent 时代,为什么传统的可观测方案不适用了?
大数据·数据库·数据分析
Elastic 中国社区官方博客10 小时前
快 12 倍的 Elasticsearch 向量索引:使用 GPU 和 CPU 分层部署 NVIDIA cuVS
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·nvidia