42、Flink 关于窗口状态大小的考量

关于状态大小的考量

窗口可以被定义在很长的时间段上(比如几天、几周或几个月)并且积累下很大的状态,当估算窗口计算的储存需求时,注意如下:

  • Flink 会为一个元素在它所属的每一个窗口中都创建一个副本。 因此,一个元素在滚动窗口的设置中只会存在一个副本(一个元素仅属于一个窗口,除非它迟到了)。 与之相反,一个元素可能会被拷贝到多个滑动窗口中,因此设置一个大小为一天、滑动距离为一秒的滑动窗口可能不是个好想法。
  • ReduceFunctionAggregateFunction 可以极大地减少储存需求,因为他们会就地聚合到达的元素, 且每个窗口仅储存一个值,而使用 ProcessWindowFunction 需要累积窗口中所有的元素。
  • 使用 Evictor 可以避免预聚合, 因为窗口中的所有数据必须先经过 evictor 才能进行计算。
相关推荐
ApacheSeaTunnel3 分钟前
从 Apache SeaTunnel 走向 ASF Member:一位开发者的长期主义样本
大数据·开源·数据集成·seatunnel·数据同步
Lalolander17 分钟前
工厂工艺管理进阶:SMT生产阶别如何实现精细化管控?
大数据·制造·mes·制造执行系统·工厂管理系统·工厂生产进度管理·工厂工单管理
黎阳之光2 小时前
黎阳之光:数智技术赋能水利“平急两用” 筑牢水利工程安全防线
大数据·人工智能·算法·安全·数字孪生
ん贤2 小时前
AI大模型落地系列:一文读懂 Eino 的 Memory 与 Session(持久化对话)
大数据·ai·golang·eino
做科研的周师兄2 小时前
巴音河中下游灌溉草地空间分布数据集(2020年)
大数据·人工智能·算法·机器学习·数据挖掘·聚类
yhdata2 小时前
电脑提花机市场规模定格14.33亿元,数据锚定行业进阶新坐标
大数据·人工智能·电脑
SelectDB3 小时前
doris404发版
大数据·数据库·数据分析
SelectDB3 小时前
SelectDB search 函数
大数据·数据库·数据分析
算法-大模型备案 多米3 小时前
算法备案算法安全自评估报告模板(精简完善版)
大数据·网络·人工智能·算法·文心一言
Guheyunyi4 小时前
安全风险预警系统的核价值与战略意义
大数据·人工智能·科技·安全·信息可视化