41、Flink 连续窗口操作详解

使用窗口计算的结果
a)概述

窗口操作的结果会变回 DataStream,并且窗口操作的信息不会保存在输出的元素中,如果想要保留窗口的 meta-information,需要在 ProcessWindowFunction 里手动将他们放入输出的元素中。

输出元素中保留的唯一相关的信息是元素的 timestamp ,它被设置为窗口能允许的最大 timestamp,也就是 end timestamp - 1,因为窗口末端的 timestamp 是排它的,同时适用于 event-time 窗口和 processing-time 窗口。

在窗口操作之后,元素总是会携带一个 event-time 或 processing-time timestamp,对 Processing-time 窗口来说,这并不意味着什么。 而对于 event-time 窗口来说,"输出携带 timestamp" 以及 "watermark 与窗口的相互作用" 这两者使建立窗口大小相同的连续窗口操作变为可能。

b)watermarks 和 windows 的交互

当 watermark 到达窗口算子时,它触发了两件事:

  • 这个 watermark 触发了所有最大 timestamp(即 end-timestamp - 1)小于它的窗口
  • 这个 watermark 被原封不动地转发给下游的任务。
c)连续窗口操作

窗口结果的 timestamp 如何计算以及 watermark 如何与窗口相互作用使串联多个窗口操作成为可能;这提供了一种便利的方法,能够有两个连续的窗口,他们即能使用不同的 key, 又能让上游操作中某个窗口的数据出现在下游操作的相同窗口。

示例 :第一个操作中时间窗口[0, 5) 的结果会出现在下一个窗口操作的 [0, 5) 窗口中,即先在一个窗口内按 key 求和,再在下一个操作中找出这个窗口中 top-k 的元素。

复制代码
DataStream<Integer> input = ...;

DataStream<Integer> resultsPerKey = input
    .keyBy(<key selector>)
    .window(TumblingEventTimeWindows.of(Time.seconds(5)))
    .reduce(new Summer());

DataStream<Integer> globalResults = resultsPerKey
    .windowAll(TumblingEventTimeWindows.of(Time.seconds(5)))
    .process(new TopKWindowFunction());
相关推荐
OpenCSG1 小时前
新能源汽车行业经典案例 — 某新能源汽车 × OpenCSG
大数据·人工智能·汽车·客户案例·opencsg
外参财观1 小时前
流量变现的边界:携程金融按下暂停键后的冷思考
大数据·人工智能·金融
CCPC不拿奖不改名2 小时前
两种完整的 Git 分支协作流程
大数据·人工智能·git·python·elasticsearch·搜索引擎·自然语言处理
智在碧得2 小时前
碧服打造DataOps全链路闭环,定义大数据工程化发布新标杆
大数据·网络·数据库
亿信华辰软件2 小时前
构建智慧数据中台,赋能饮料集团全链路数字化转型新引擎
大数据·人工智能·云计算
Elastic 中国社区官方博客3 小时前
使用瑞士风格哈希表实现更快的 ES|QL 统计
大数据·数据结构·sql·elasticsearch·搜索引擎·全文检索·散列表
isNotNullX4 小时前
什么是数字脱敏?一文讲透数字脱敏概念
大数据·数据安全·数据可视化·数字脱敏
weixin_457297104 小时前
大数据面试常见问题
大数据·面试·职场和发展
易营宝4 小时前
全球建站SaaS平台能提升SEO评分吗?是否值得切换?
大数据·前端·人工智能
CryptoPP5 小时前
主流国际股票行情API接口横向对比:如何选择适合你的数据源?
大数据·笔记·金融·区块链