Flink底层核心 - 技术栈

JobManager 是 Flink 集群的控制中心，负责调度、管理和协调整个作业的执行。它的主要职责包括：

TaskManager 是 Flink 集群中的工作节点，负责实际执行任务。每个 TaskManager 会执行多个任务槽（Task Slot），其具体职责包括：

任务执行：TaskManager 负责接收和执行由 JobManager 分配的任务。
资源隔离：每个 Task Slot 是 Flink 用于隔离任务资源的基本单元，Task Slot 可以防止任务之间的资源竞争，提供 CPU 和内存的隔离。
状态管理：TaskManager 负责管理任务的状态和中间结果，将状态存储在内存或外部存储系统中。
数据传输：TaskManager 之间进行网络通信，传输流数据。

DataStream API ：Flink 提供了一个流式数据处理的编程接口，用于处理无限的数据流（无界流）。它的核心概念包括：
- Transformation：Flink 提供了丰富的数据转换操作（如 map、filter、reduce、window 等），这些操作可以直接应用于流数据。
- Window：Flink 支持对流数据进行窗口操作，将数据按时间、数量、会话等进行分割并聚合。
- Time Semantics：Flink 支持多种时间语义，包括处理时间（Processing Time）和事件时间（Event Time）。
DataSet API：用于批处理数据集，操作方式类似于批处理框架如 Hadoop。适用于有限的数据集。

Flink 的执行引擎将用户编写的代码转换为底层的并行计算任务并运行，这个过程分为多个步骤：

StreamGraph：这是用户定义的作业的初步表示，用户的 DataStream 程序会被翻译成一个有向无环图 (DAG)，其中节点表示操作符，边表示数据流动。
JobGraph：StreamGraph 会进一步被优化为 JobGraph。JobGraph 是物理执行的高层次逻辑表示，反映了任务之间的依赖关系。

TaskGraph 是 Flink 作业的物理执行图。JobGraph 被细化为 TaskGraph，它包含具体的物理执行任务，并包含每个任务的并行度信息。
Execution Graph：当 Flink 开始执行时，TaskGraph 会被转换成 Execution Graph，反映了任务如何在集群上并行执行。

每个 TaskManager 包含多个 Task Slot。每个 Task Slot 负责执行一个或多个并行任务，并且能够隔离不同任务的资源使用。通过这种方式，Flink 可以在单个节点上运行多个任务而不互相干扰。

Flink 处理的数据流可能会依赖于中间状态（例如计算窗口聚合、join 或带状态的函数），这时状态管理显得尤为重要。

Operator State：每个操作符（Operator）可以维护自己的状态。Operator State 在整个流作业中共享，不区分具体的数据键。
Keyed State：Keyed State 是基于键的状态，每个键（key）都有其自己的状态。Keyed State 常用于基于 key 的分布式状态处理。

Flink 提供了多种方式来存储作业的状态：

Checkpointing：Flink 支持周期性 checkpoint，它可以捕获整个作业的状态，用于恢复任务失败。checkpoint 是增量式的，系统只保存状态的变化部分。
Savepoint：Savepoint 是手动触发的状态保存点，常用于作业的维护和升级。Savepoint 通常用于持久化状态并在以后恢复。

事件时间是 Flink 支持的时间语义，它根据事件发生的时间戳来处理数据。这与其他流处理框架通常使用的处理时间（即系统接收到数据的时间）不同。

Watermark：在乱序数据的处理过程中，Flink 使用 Watermark 来标记系统已经看到的最晚事件时间。Watermark 可以帮助 Flink 决定何时可以关闭窗口并输出结果。

Flink 提供了灵活的窗口操作，允许将数据流分成多个窗口：

Flink 的 checkpoint 机制用于在作业执行期间周期性地保存作业状态。一旦任务失败，系统可以从最近的 checkpoint 重新启动任务，确保数据的完整性。

Flink 提供了严格的"精确一次"处理语义，确保在发生故障时，数据不会被重复处理或丢失。Flink 使用的 checkpoint 和两阶段提交协议（Two-Phase Commit Protocol）来实现精确一次的消息传递。

Flink 可以与各种资源管理系统集成，动态管理和调度计算资源：

Flink 统一了流处理和批处理的执行模型。Flink 将批处理视为有界的流处理，而流处理则是无界的数据处理。通过这种统一模型，Flink 能够有效地处理不同类型的数据任务。这一特性使得 Flink 能够在一个引擎中高效地处理实时数据流和批处理作业，同时确保任务的语义一致性。

每个部分相互协作，保证了 Flink 作为一个分布式计算平台，能够高效地处理海量数据，并提供高可用性和容错性。