42、Flink 关于窗口状态大小的考量

关于状态大小的考量

窗口可以被定义在很长的时间段上(比如几天、几周或几个月)并且积累下很大的状态,当估算窗口计算的储存需求时,注意如下:

  • Flink 会为一个元素在它所属的每一个窗口中都创建一个副本。 因此,一个元素在滚动窗口的设置中只会存在一个副本(一个元素仅属于一个窗口,除非它迟到了)。 与之相反,一个元素可能会被拷贝到多个滑动窗口中,因此设置一个大小为一天、滑动距离为一秒的滑动窗口可能不是个好想法。
  • ReduceFunctionAggregateFunction 可以极大地减少储存需求,因为他们会就地聚合到达的元素, 且每个窗口仅储存一个值,而使用 ProcessWindowFunction 需要累积窗口中所有的元素。
  • 使用 Evictor 可以避免预聚合, 因为窗口中的所有数据必须先经过 evictor 才能进行计算。
相关推荐
℡終嚸♂6804 分钟前
Gogs CVE-2025-64111 CTF Writeup
大数据·elasticsearch·搜索引擎
百锦再19 分钟前
时序数据库选型指南:大数据时代的“数据基建”与 IoTDB 的工业原生之路
大数据·数据库·mysql·oracle·sqlserver·时序数据库·iotdb
有想法的py工程师20 分钟前
如何用 AWS CLI 判断 T 系列实例 CPU 不够(实战指南)
大数据·aws
weikecms21 分钟前
2026企微SCRM社群管理工具推荐
大数据·人工智能
前端若水23 分钟前
Git 全命令超级详细指南
大数据·git·elasticsearch
末代程序员_C30 分钟前
Maven版本管控:多分支并行开发中的API版本管理之道
大数据·elasticsearch·maven
Omics Pro34 分钟前
癌症亚型分类新型多组学整合框架
大数据·人工智能·python·算法·机器学习·分类·数据挖掘
dingzd9541 分钟前
视频创作工具持续升级跨境社媒内容生产流程如何做轻量化
大数据·人工智能·新媒体运营·市场营销·跨境
GlobalInfo1 小时前
2026年喷涂机器人行业市场调查与投资建议分析
大数据·人工智能·机器人
Jason_zhao_MR1 小时前
基于米尔RK3576核心板的国产割草机器人解决方案
大数据·linux·人工智能·单片机·物联网·机器人·嵌入式