42、Flink 关于窗口状态大小的考量

关于状态大小的考量

窗口可以被定义在很长的时间段上(比如几天、几周或几个月)并且积累下很大的状态,当估算窗口计算的储存需求时,注意如下:

  • Flink 会为一个元素在它所属的每一个窗口中都创建一个副本。 因此,一个元素在滚动窗口的设置中只会存在一个副本(一个元素仅属于一个窗口,除非它迟到了)。 与之相反,一个元素可能会被拷贝到多个滑动窗口中,因此设置一个大小为一天、滑动距离为一秒的滑动窗口可能不是个好想法。
  • ReduceFunctionAggregateFunction 可以极大地减少储存需求,因为他们会就地聚合到达的元素, 且每个窗口仅储存一个值,而使用 ProcessWindowFunction 需要累积窗口中所有的元素。
  • 使用 Evictor 可以避免预聚合, 因为窗口中的所有数据必须先经过 evictor 才能进行计算。
相关推荐
珠海西格5 分钟前
光伏电站全景感知体系:数据采集与设备状态监测技术
大数据·运维·服务器·数据库·人工智能
代码匠心7 分钟前
从零开始学Flink:Flink SQL 极简入门
大数据·flink·flink sql·大数据处理
stevenzqzq30 分钟前
git 常用操作
大数据·git
JZC_xiaozhong37 分钟前
多系统权限标准不统一?企业如何实现跨平台统一权限管控
java·大数据·微服务·数据集成与应用集成·iam系统·权限治理·统一权限管理
WZGL123043 分钟前
“十五五”发展展望:以社区为底座构建智慧康养服务
大数据·人工智能·物联网
龙亘川1 小时前
政务数据治理实践:从架构搭建到价值释放的全流程探索
大数据·政务数据之道》白皮书·政务数据治理
历程里程碑1 小时前
普通数组----最大子数组和
大数据·算法·elasticsearch·搜索引擎·排序算法·哈希算法·散列表
五度易链-区域产业数字化管理平台1 小时前
「五度易链」行业标准信息数据库简介
大数据·数据库
数研小生2 小时前
关键词搜索京东列表API技术对接指南
大数据·数据库·爬虫
星辰_mya2 小时前
Elasticsearch之下
大数据·elasticsearch·搜索引擎