42、Flink 关于窗口状态大小的考量

关于状态大小的考量

窗口可以被定义在很长的时间段上(比如几天、几周或几个月)并且积累下很大的状态,当估算窗口计算的储存需求时,注意如下:

  • Flink 会为一个元素在它所属的每一个窗口中都创建一个副本。 因此,一个元素在滚动窗口的设置中只会存在一个副本(一个元素仅属于一个窗口,除非它迟到了)。 与之相反,一个元素可能会被拷贝到多个滑动窗口中,因此设置一个大小为一天、滑动距离为一秒的滑动窗口可能不是个好想法。
  • ReduceFunctionAggregateFunction 可以极大地减少储存需求,因为他们会就地聚合到达的元素, 且每个窗口仅储存一个值,而使用 ProcessWindowFunction 需要累积窗口中所有的元素。
  • 使用 Evictor 可以避免预聚合, 因为窗口中的所有数据必须先经过 evictor 才能进行计算。
相关推荐
aisifang0012 小时前
企业级GPT-Image2实战测评:从生成到生产
大数据·数据库·人工智能
znhb9912 小时前
焦化行业超低排放改造案例分析---中煤旭阳
大数据·人工智能
阳艳讲ai13 小时前
中小企业AI项目落地技术指南:常见问题与实施框架
大数据·人工智能·企业ai培训·ai获客·九尾狐ai
爱码小白14 小时前
MySQL运维篇
大数据·数据库·python
VALENIAN瓦伦尼安教学设备15 小时前
填补国内空白!瓦伦尼安发布首台船机机械故障诊断振动实验台
大数据·人工智能·嵌入式硬件
2601_9515159515 小时前
护眼照明进入深度洗牌期:书客SUN2如何重塑健康光行业规则?
大数据·人工智能·书客护眼大路灯·爱眼护眼·护眼大路灯
数据皮皮侠AI15 小时前
基于经济学季刊方法测算的中国城市蔓延指数
大数据·人工智能·笔记·数据挖掘·回归
JGHAI15 小时前
2026年GEO技术发展趋势:从“流量游戏”到“智能对齐”,技术演进驱动品牌信任重塑
大数据·人工智能
Elastic 中国社区官方博客16 小时前
Elastic 开源社区行为准则
大数据·elasticsearch·搜索引擎·信息可视化·全文检索
视***间16 小时前
算力为核,智驱无界——视程空间硬核赋能机器狗与机器人,解锁具身智能产业新未来
大数据·运维·人工智能·机器人·采集卡·机器狗·视程空间