flink有状态计算中状态的分类

在 Apache Flink 的状态计算中,状态主要分为以下两类:

1. Keyed State

  • 定义:与特定键(Key)关联的状态,每个键独立维护其状态数据。
  • 特点
    • 作用域为当前键,不同键的状态互不影响。
    • 仅能在 KeyedStream 的函数(如 map()flatMap())中访问。
  • 存储结构
    • ValueState<T>:存储单值,例如: \\text{计数器}
    • ListState<T>:存储列表,例如: \\text{窗口内事件列表}
    • MapState<K, V>:存储键值对,例如: \\text{用户行为映射表}
    • ReducingState<T>:聚合状态(已弃用,推荐用 AggregatingState

2. Operator State

  • 定义:与算子实例(Operator Instance)绑定的状态,不依赖数据键。
  • 特点
    • 作用域为整个算子,所有输入数据共享同一状态。
    • 可在非 KeyedStream 的算子(如 SourceSink)中使用。
  • 存储结构
    • ListState<T>:用于存储列表形式的状态(如 Kafka 偏移量)。
    • BroadcastState<K, V>:用于广播状态至下游所有并行实例。

核心区别

特性 Keyed State Operator State
作用域 按键分区 算子实例级
访问限制 仅限相同键的数据 所有输入数据均可访问
典型应用 窗口聚合、状态机(如 CEP) 全局配置、源/接收器状态

状态作用域示意图

\\begin{array}{c\|c} \\text{Keyed State} \& \\text{Operator State} \\ \\hline \\begin{array}{c} \\text{Key=1} \\ \\downarrow \\ \\text{State A} \\ \\end{array} \& \\begin{array}{c} \\text{Operator} \\ \\downarrow \\ \\text{Global State} \\ \\end{array} \\ \\begin{array}{c} \\text{Key=2} \\ \\downarrow \\ \\text{State B} \\ \\end{array} \& \\end{array}

最佳实践

  • Keyed State:适用于需要分区隔离的场景(如用户会话分析)。
  • Operator State:适用于全局状态管理(如动态规则更新)。

通过合理选择状态类型,可优化资源利用并保障计算一致性。

相关推荐
元拓数智1 小时前
智能分析落地卡壳?先补好「数据关系+语义治理」这层技术基建
大数据·分布式·ai·spark·数据关系·语义治理
TDengine (老段)2 小时前
TDengine Tag 设计哲学与 Schema 变更机制
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
sxgzzn2 小时前
新能源场站数智化转型:基于数字孪生与AI的智慧运维管理平台解析
大数据·运维·人工智能
清平乐的技术专栏4 小时前
【Flink学习】(二)Flink 本地环境搭建,运行第一个入门程序
大数据·flink
这是程序猿4 小时前
Spring Boot自动配置详解
java·大数据·前端
ws2019074 小时前
AUTO TECH China 2026广州汽车零部件展:从整机集成迈向核心部件的产业跃升
大数据·人工智能·科技·汽车
humors2214 小时前
从数据到决策:汽车使用成本的精细计算指南
大数据·程序人生
大大大大晴天4 小时前
Flink技术实践:RocksDB 状态后端技术解密
大数据·flink
189228048615 小时前
NY382固态MT29F32T08GSLBHL8-24QM:B
大数据·服务器·人工智能·科技·缓存
liu_sir_5 小时前
升级谷歌webview
大数据·elasticsearch·搜索引擎