Flink原理与实践 · 第三章总结

从 WordCount 出发，彻底吃透 Flink 的设计与运行原理
原文整理自《Flink原理与实践》第三章，作者鲁蔚征

作者：AlgoCraft

发布时间：2025-08-19

本章回答三个灵魂拷问：

一句话：Client 提交通关，JM 指挥全局，TM 干活挣钱，RM 管钱袋子。

官方把"翻译"过程拆成 4 个阶段：

StreamGraph

用户代码直接映射出的 DAG，节点=算子。
JobGraph

优化阶段：把可以 链在一起 的算子合并成 Operator Chain（JobVertex），减少网络 shuffle。
ExecutionGraph

JobManager 把 JobVertex 按并行度 横向展开，形成并行实例 ExecutionVertex。
物理执行图

ExecutionVertex 被调度到 TaskManager 的某个 Slot 内，变成真正的线程 / Task。

Slot = TaskManager 资源子集

默认 1 Slot ≈ 1 CPU core + 部分内存。
Slot Sharing（槽位共享）

同一个作业的所有 Sub-task 可以塞进 一个 Slot ，减少 IPC 与线程切换，提高利用率。

示例：并行度=6，但只开 2 个 Slot，也能跑满。
算子链 vs. Slot Sharing
- 算子链：把算子"纵向"合并进同一线程。
- Slot Sharing：把 Sub-task"横向"塞进同一 Slot。
  二者叠加，最终一个 Slot 里可能跑 多条链的多个 Sub-task。

步骤	关键动作
设置并行度	`env.setParallelism(2)`
算子链	Source→FlatMap 链在一起；keyBy 不能链（发生 shuffle）
Slot Sharing	Source $1/2$ 、FlatMap $1/2$ 、Window $1/2$ 共享 Slot1
WebUI 观察	可看到 5 个 Sub-task 落在 2 个 Slot 内

官方实验要求：

维度	关键词
图模型	StreamGraph → JobGraph → ExecutionGraph → 物理图
并行度	算子子任务数，可全局或单算子设置
资源	Slot、Slot Sharing、Operator Chain
角色	Client / Dispatcher / JobManager / ResourceManager / TaskManager

理解本章后，再回头看任何 Flink 程序，你都能迅速画出它的 逻辑 DAG 、估算 并行度 、预判 资源占用------真正做到"跑起来"也"跑明白"。