42、Flink 关于窗口状态大小的考量

关于状态大小的考量

窗口可以被定义在很长的时间段上(比如几天、几周或几个月)并且积累下很大的状态,当估算窗口计算的储存需求时,注意如下:

  • Flink 会为一个元素在它所属的每一个窗口中都创建一个副本。 因此,一个元素在滚动窗口的设置中只会存在一个副本(一个元素仅属于一个窗口,除非它迟到了)。 与之相反,一个元素可能会被拷贝到多个滑动窗口中,因此设置一个大小为一天、滑动距离为一秒的滑动窗口可能不是个好想法。
  • ReduceFunctionAggregateFunction 可以极大地减少储存需求,因为他们会就地聚合到达的元素, 且每个窗口仅储存一个值,而使用 ProcessWindowFunction 需要累积窗口中所有的元素。
  • 使用 Evictor 可以避免预聚合, 因为窗口中的所有数据必须先经过 evictor 才能进行计算。
相关推荐
KIHU快狐1 分钟前
KIHU快狐|RK3399系统户外触摸一体机强悍算力支持超清播放
大数据·人工智能·python
float_六七19 分钟前
Git忽略规则终极指南
大数据·git·elasticsearch
网络工程小王28 分钟前
【大数据技术详解】——HBase技术(学习笔记)
大数据·hadoop·hdfs·big data
Cvmax1 小时前
xStocks.fi:DeFi 领域的代币化股票与 ETF 创新
大数据·人工智能·区块链
YLXA2 小时前
6. cuda reduce kernel
大数据
无忧智库2 小时前
破局大模型“语料荒”:国家级高质量中文多模态语料库处理平台的深度解构与实战指南(WORD)
大数据·人工智能
大大大大晴天2 小时前
Hudi生产问题排障-insert overwrite 路径不存在
大数据·spark
综合热讯3 小时前
香港启世集团宣布启动核聚变能源研究计划
大数据·人工智能·能源
数字化顾问3 小时前
(85页PPT)麦肯锡XX集团财务管理体系构建咨询规划报告(附下载方式)
大数据·人工智能
Gain_chance3 小时前
Flume01:大数据日志收集与传输利器
大数据·数据仓库·flume