42、Flink 关于窗口状态大小的考量

关于状态大小的考量

窗口可以被定义在很长的时间段上(比如几天、几周或几个月)并且积累下很大的状态,当估算窗口计算的储存需求时,注意如下:

  • Flink 会为一个元素在它所属的每一个窗口中都创建一个副本。 因此,一个元素在滚动窗口的设置中只会存在一个副本(一个元素仅属于一个窗口,除非它迟到了)。 与之相反,一个元素可能会被拷贝到多个滑动窗口中,因此设置一个大小为一天、滑动距离为一秒的滑动窗口可能不是个好想法。
  • ReduceFunctionAggregateFunction 可以极大地减少储存需求,因为他们会就地聚合到达的元素, 且每个窗口仅储存一个值,而使用 ProcessWindowFunction 需要累积窗口中所有的元素。
  • 使用 Evictor 可以避免预聚合, 因为窗口中的所有数据必须先经过 evictor 才能进行计算。
相关推荐
是做服装的同学7 小时前
服装软件ERP系统的基本概念是什么?主要构成有哪些?
大数据·经验分享·其他
heimeiyingwang8 小时前
企业供应链 AI 优化:需求预测与智能调度
大数据·数据库·人工智能·机器学习
Dr.AE13 小时前
AI+教育行业分析报告
大数据·人工智能·教育电商
Evaporator Core14 小时前
通信专业技术资格考试备战系列(一):通信基础知识核心要点解析
大数据·tornado
freepopo15 小时前
比较好的别墅装修策略
大数据
实战产品说19 小时前
2026出海产品的机会与挑战
大数据·人工智能·产品运营·产品经理
2501_9269783320 小时前
从Prompt的“结构-参数”到多AI的“协作-分工”--底层逻辑的同构分化
大数据·人工智能·机器学习
教男朋友学大模型20 小时前
平衡AI自动化与人工干预
大数据·人工智能·自动化
渣瓦攻城狮21 小时前
互联网大厂Java面试实战:核心技术与场景分析
java·大数据·redis·spring·微服务·面试·技术分享
Elastic 中国社区官方博客21 小时前
Elasticsearch:通过最小分数确保语义精度
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索