Flink 窗口(Window)超详细核心知识点总结

一、窗口到底是什么?(最核心概念)

1. 一句话定义

窗口 = 把无限流 → 切割成有限的数据块(桶),方便计算。

2. 正确理解(面试必说)

  • 窗口不是固定的框
  • 窗口是动态创建的桶
  • 数据来了 → 分到对应窗口 → 时间 / 数量到了 → 计算输出
  • 窗口区间:左闭右开 [start, end)

3. 窗口的意义

Flink 是流式计算,数据无限,必须用窗口变成有限数据才能统计。


二、窗口两大分类(必考)

1. 按 驱动类型

(1)时间窗口(TimeWindow)

  • 时间切割
  • 到点就触发计算
  • 最常用

(2)计数窗口(CountWindow)

  • 数据个数切割
  • 凑够数量就触发
  • 底层 = 全局窗口

2. 按 数据分配规则 分(4 种)

  1. **滚动窗口(Tumbling)**不重叠、无间隙
  2. **滑动窗口(Sliding)**可重叠、有步长
  3. **会话窗口(Session)**隔一段时间没数据就断开
  4. **全局窗口(Global)**所有数据进同一个窗口(需自定义触发器)

三、窗口 API 最核心结构

复制代码
流
.keyBy(...)         // 分组(必须,否则并行度=1)
.window(...)        // 窗口分配器(定义窗口类型)
.aggregate(...)     // 窗口函数(计算逻辑)

四、Keyed vs Non-Keyed 窗口(超级重要)

1. Keyed Window(推荐 ✅)

  • .keyBy()
  • 多并行度执行
  • 每个 key 独立窗口、独立状态
  • 支持定时器、状态、窗口

2. Non-Keyed Window(不推荐 ❌)

  • 直接 .windowAll()
  • 并行度永远 = 1
  • 性能极差
  • 生产几乎不用

五、窗口分配器(Window Assigners)

1. 时间窗口(最常用)

滚动窗口

复制代码
.window(TumblingProcessingTimeWindows.of(Time.seconds(5)))

滑动窗口

复制代码
.window(SlidingProcessingTimeWindows.of(大小, 步长))

会话窗口

复制代码
.window(ProcessingTimeSessionWindows.withGap(Time.seconds(10)))

2. 计数窗口

滚动计数

复制代码
.countWindow(10)   // 10条数据触发

滑动计数

复制代码
.countWindow(10, 3)  // 窗口10条,每3条滑动一次

六、窗口函数(Window Functions)(必考)

两大类:

1. 增量聚合函数(性能高 ✅)

来一条算一条,不存全部数据

  • ReduceFunction输入、输出类型必须一样
  • AggregateFunction (最强大)支持:
    • 输入类型
    • 中间累加器类型
    • 输出类型三者可不一样!

AggregateFunction 4 个方法:

  1. createAccumulator() 创建累加器
  2. add() 数据来了就加
  3. getResult() 窗口结束输出结果
  4. merge() 会话窗口合并用

2. 全窗口函数(功能强 ✅)

先缓存所有数据,窗口结束一起算

  • WindowFunction(老版,不推荐)
  • ProcessWindowFunction(新版,最强大)

能拿到:

  • 窗口全部数据
  • 窗口开始 / 结束时间
  • 上下文、状态、时间

七、窗口高级 API(面试高频)

1. 允许延迟(allowedLateness)

复制代码
.allowedLateness(Time.minutes(1))
  • 窗口到时间后不关闭
  • 再等 1 分钟,迟到数据仍可进入计算

2. 迟到数据 → 侧输出流(SideOutput)

复制代码
.sideOutputLateData(lateTag)
  • 彻底迟到的数据 → 打入侧输出流
  • 不影响主流
  • 可单独处理、补算

八、本章 10 个最强结论(背会直接过面试)

  1. 窗口 = 把无限流切成有限块进行计算
  2. 窗口是动态桶,不是固定框
  3. keyBy 之后开窗才支持多并行、状态、定时器
  4. 窗口分:时间窗口、计数窗口
  5. 分配规则:滚动、滑动、会话、全局
  6. 增量聚合性能高,全窗口功能全
  7. AggregateFunction 是最灵活的增量聚合
  8. ProcessWindowFunction 功能最强大
  9. 事件时间必须处理迟到数据
  10. 迟到处理:允许延迟 + 侧输出流

九、面试满分回答(直接背)

Flink 窗口是将无界流切割成有界数据块的核心机制,分为时间窗口和计数窗口,按分配规则可分为滚动、滑动、会话和全局窗口。窗口必须在 keyBy 之后使用才能支持高并行、状态和定时器。窗口计算分为增量聚合(Reduce/Aggregate)和全窗口函数(ProcessWindowFunction),前者性能高,后者功能全。事件时间下需通过 allowedLateness 和侧输出流处理迟到数据,保证计算准确。

相关推荐
Cx330❀18 小时前
Linux命名管道(FIFO)通信:从原理到实操,一文搞懂跨进程通信
大数据·linux·运维·服务器·elasticsearch·搜索引擎
汽车仪器仪表相关领域18 小时前
NHVOC-70系列固定污染源挥发性有机物监测系统:精准破局工业VOCs监测痛点,赋能环保合规升级
大数据·人工智能·安全性测试
实证小助手20 小时前
世界各国经济政策不确定指数(1997-2024年)月度数据
大数据·人工智能
csgo打的菜又爱玩20 小时前
1.JobManager启动流程解析.md
大数据·flink·源代码管理
Elastic 中国社区官方博客21 小时前
使用 Jina 远程 MCP 服务器的 Agentic 工作流
大数据·运维·人工智能·elasticsearch·搜索引擎·运维开发·jina
金融小师妹21 小时前
AI宏观情景模型解析:能源冲击与通胀粘性下的全球经济增长下修路径
大数据·svn·逻辑回归·能源
上海锝秉工控1 天前
总线编码器:工业自动化的“智慧神经”
大数据·人工智能·自动化
互联网科技看点1 天前
AtlasX Protocol 获 200 万美元种子轮融资
大数据·人工智能·区块链
观远数据1 天前
AI优先的BI试点新玩法:如何用自然语言分析重构业务决策流程
大数据·人工智能·数据挖掘
ApacheSeaTunnel1 天前
Apache SeaTunnel Zeta 为什么能做到“又快又稳”?
大数据·开源·数据集成·seatunnel·技术分享·数据同步