flink分区与算子链

Direction_Wind2024-02-23 21:34

flink分区与算子链

[flink 分区策略](#flink 分区策略)
[flink 什么情况下才会把 Operator chain 在一起形成算子链？](#flink 什么情况下才会把 Operator chain 在一起形成算子链？)

flink 分区策略

GlobalPartitioner 数据会被分发到下游算子的第一个实例中进行处理
RebalancePartitioner 数据会被循环发送到下游的每一个实例中进行处理。
RescalePartitioner 这种分区器会根据上下游算子的并行度，循环的方式输出到下游算子的每个实例。
BroadcastPartitioner 广播分区会将上游数据输出到下游算子的每个实例中。适合于大数据集和小数据集做Jion的场景。
ForwardPartitioner 用于将记录输出到下游本地的算子实例。它要求上下游算子并行度一样。简单的说， ForwardPartitioner 用来做数据的控制台打印。(也是chain算子的条件)
KeyGroupStreamPartitioner Hash 分区器。会将数据按 Key 的 Hash 值输出到下游算子实例中。
CustomPartitionerWrapper 用户自定义分区器。需要用户自己实现 Partitioner 接口，来定义自己的分区逻辑

RescalePartitioner这里有点难以理解，假设上游并行度为 2，编号为 A 和 B。下游并行度为 4，编号为 1，2，3，4。那么 A 则把数据循环发送给 1 和 2，B 则把数据循环发送给 3 和 4。假设上游并行度为 4，编号为 A，B，C，D。下游并行度，编号为 1，2。那么 A 和 B 则把数据发送给 1，C 和 D 则把数据发送给 2。

flink 什么情况下才会把 Operator chain 在一起形成算子链？

上下游的并行度一致
下游节点的入度为 1 （也就是说下游节点没有来自其他节点的输入）
上下游节点都在同一个 slot group 中
两个节点间数据分区方式是 forward（参考理解数据流的分区）否则都是all_to_all
上下游节点的 chain 策略为 ALWAYS

上一篇：flink多流操作（connect cogroup union broadcast）

下一篇：开源图表库Echarts 简介与基本使用

热门推荐

01GitHub 镜像站点 02【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）03安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）04UV安装并设置国内源 05Linux下V2Ray安装配置指南 06BongoCat - 跨平台键盘猫动画工具 07React CVE-2025-55182漏洞排查与修复指南 08本地部署阿里最新开源的Z-Image 09从入门到实战：Gemini 3 使用指南速览 10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）