42、Flink 关于窗口状态大小的考量

关于状态大小的考量

窗口可以被定义在很长的时间段上(比如几天、几周或几个月)并且积累下很大的状态,当估算窗口计算的储存需求时,注意如下:

  • Flink 会为一个元素在它所属的每一个窗口中都创建一个副本。 因此,一个元素在滚动窗口的设置中只会存在一个副本(一个元素仅属于一个窗口,除非它迟到了)。 与之相反,一个元素可能会被拷贝到多个滑动窗口中,因此设置一个大小为一天、滑动距离为一秒的滑动窗口可能不是个好想法。
  • ReduceFunctionAggregateFunction 可以极大地减少储存需求,因为他们会就地聚合到达的元素, 且每个窗口仅储存一个值,而使用 ProcessWindowFunction 需要累积窗口中所有的元素。
  • 使用 Evictor 可以避免预聚合, 因为窗口中的所有数据必须先经过 evictor 才能进行计算。
相关推荐
档案宝档案管理6 分钟前
从台账到检索,全面提升档案管理的便捷性和安全性
大数据·人工智能·档案·档案管理
Elastic 中国社区官方博客7 分钟前
使用 Elasticsearch 和 LLMs 进行实体解析,第 1 部分:为智能实体匹配做准备
大数据·人工智能·elasticsearch·搜索引擎·全文检索
数新网络18 分钟前
数新智能 CyberEngine 大数据引擎管理平台焕新升级
大数据
WZgold14135 分钟前
新手入门:预判黄金行情需参考哪些关键数据?
大数据·经验分享
藦卡机器人36 分钟前
国产激光焊接机器人品牌
大数据·人工智能·机器人
云边有个稻草人37 分钟前
大数据时代时序数据库选型深度指南:Apache IoTDB的技术内核与场景落地
大数据·apache·时序数据库·apache iotdb
Hello.Reader1 小时前
Flink Python REPL(pyflink-shell)实战:本地/远程/YARN 三种启动方式 + Table API 交互开发流程
python·flink·交互
Hello.Reader1 小时前
Flink SSL/TLS 安全加固内网 mTLS、REST HTTPS、证书 Pinning 与部署要点
安全·flink·ssl
数新网络1 小时前
数新智能 CyberData 现已全面支持 AWS Graviton 处理器
大数据
DisonTangor2 小时前
介绍 GPT‑5.3‑Codex‑Spark
大数据·gpt·spark