Apache Flink 中作业图与执行图的深入解析

Apache Flink 是一个用于分布式流处理和批处理的开源框架,它的核心概念之一是使用一系列层次化的执行图来抽象和优化用户的流处理作业。以下是 Flink 中作业图和执行图的详细介绍:

  1. StreamGraph(逻辑流图)

    • StreamGraph 是用户编写的应用程序代码转换成的第一个图表示形式。当用户通过 Flink 的 DataStream 或 DataSet API 编写程序时,Flink 会根据程序中定义的数据源、转换操作(例如 map、filter、join 等)和数据接收器生成一个 StreamGraph。
    • 它反映了程序的原始拓扑结构,包含了所有算子(Operator)及其之间的数据流关系,但并未包含任何关于并行度或其他执行层面的细节。
  2. JobGraph(作业图)

    • JobGraph 是 StreamGraph 经过优化后的版本,是 Flink 客户端提交给 JobManager 的数据结构。
    • 在生成 JobGraph 的过程中,Flink 会对 StreamGraph 进行一系列优化,比如合并连续的同类算子、设置并行度等。
    • JobGraph 包含了具体的并行任务(JobVertex),每个 JobVertex 对应了一个或者多个具有相同逻辑的 Operator,同时连接 JobVertex 的边则代表了数据流通道。
  3. ExecutionGraph(执行图)

    • ExecutionGraph 是 JobManager 根据 JobGraph 创建的实际执行计划,它是 Flink 执行引擎的核心数据结构。
    • ExecutionGraph 更进一步细化了 JobGraph 中的任务,并考虑了容错、调度等因素。每个 JobVertex 在 ExecutionGraph 中对应一个 ExecutionVertex,每个 ExecutionVertex 表示一个具体的并行任务实例,可能分布在不同的 TaskManager 上执行。
    • ExecutionGraph 还记录了任务间的依赖关系、任务的分配情况以及状态恢复信息等,在作业执行期间用于资源分配、故障恢复和进度协调。
  4. PhysicalGraph (物理执行图)

    • 物理执行图是指在实际部署和执行过程中形成的图,也就是由具体 Task(在 TaskManager 上运行的实体)构成的网络。它是由 ExecutionGraph 进一步分解和映射到具体的物理节点(TaskManager)上的表现形式。
    • 每个 Task 由 AbstractInvokable 类的一个实例来执行,它们负责实际的数据处理工作。

总结来说,从用户编写的应用程序代码到最后物理执行的过程中,Flink 通过逐层构建和优化执行图,有效地将复杂的流处理逻辑转换为可在分布式环境中高效执行的任务网络。这一系列图的转换过程确保了 Flink 能够透明地处理分布式系统的复杂性,并实现高可用、高性能的流和批处理作业。

相关推荐
GIS数据转换器2 小时前
延凡智慧水务系统:引领行业变革的智能引擎
大数据·人工智能·无人机·智慧城市
2601_949539453 小时前
家用新能源 SUV 核心技术科普:后排娱乐、空间工程与混动可靠性解析
大数据·网络·人工智能·算法·机器学习
莫叫石榴姐3 小时前
字节广告数开一面 | 实习
大数据·数据仓库·面试
T06205144 小时前
【面板数据】地级市人力资本水平测算数据(1990-2024年)
大数据
TDengine (老段)4 小时前
TDengine IDMP 可视化 —— 饼图
大数据·数据库·人工智能·物联网·时序数据库·tdengine·涛思数据
Flying pigs~~4 小时前
从“踩坑”到“可控”:大模型 Prompt 工程实战总结与进阶方法论
大数据·人工智能·大模型·prompt·提示词工程
白眼黑刺猬5 小时前
实时库存预警: 如何实现秒级更新且保证在高并发下不出现“超卖”显示错误?
大数据·面试·职场和发展
云栖梦泽5 小时前
【AI】AI安全工具:常用AI安全检测工具的使用教程
大数据·人工智能·安全
智慧化智能化数字化方案5 小时前
咨询进阶——毕马威-高科技行业基于平衡计分卡的绩效管理方法研讨【附全文阅读】
大数据·绩效管理·人力资源管理·力资源管控体系·企业人力资源数字化转·绩效考核指标范例
财经资讯数据_灵砚智能6 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月6日
大数据·人工智能·python·信息可视化·语言模型·自然语言处理·ai编程