短分享-Flink图构建

一、背景

通过简单的书写map、union、keyby等代码,Flink便能构建起一个庞大的分布式计算任务,Flink如何实现的这个酷炫功能呢?我们本次分享Flink做的第一步,将代码解析构建成图

源码基于Flink 2.10,书籍参考《Flink核心技术源码剖析与特性开发》第四章

我这次会用一个简单的代码来举例图的构建过程

二、例子代码

以上代码转换关系如下图:

三、代码转StreamGraph

3.1 路由关系的搭建

Flink中每一次转换(如map)用Transformation表示,每次转换都会有一条类似的边被保存(Transformation1-> Transformation2) ,而所有的关联关系存储在Environment的transformations中

3.2 路由关系转StreamGraph

有了所有的边,就可以将边构成图了,图主要通过递归关系构建,不同Transformation有不同处理策略,对于map会把该结点和它之前的结点构成边,对于union会把它的前后结点连接起来,对于keyby会变成边的策略

转换之后图如下所示,可以看到union和keyby都消失了

我们debug中间过程,可以看到确实是7个结点

且keyby变成了边的策略

四、StreamGraph转JobGraph

在这一步会做很做很多重要操作,比如结点链接,配置检查点,设置分布式缓存文件等,我们本次主要聚焦于结点的链接,满足如下条件的会被链接

StreamGraph转JobGraph同样通过递归进行,链接完后的图如下图所示,map1和map2被链接,map4和slink被链接:

可以debug中间过程,可以看到确实是只剩了5个结点:

如果我们再加上实际的对象,实际如下图所示,每个结点是一个JobVertex,IntermediateDataSet 对象就是数据写入的地方,JobEdge是连接关系

其中ID是IntermediateDataSet,为后面数据分区做准备

JE是JobEdge

五、JobGraph转ExecutionGraph

JobGraph创建好之后,会被提交到JobManager,在JobManager中会根据JobGraph图做拓扑排序,然后完成JobGraph到ExecutionGraph的转化,其中:

JobVertex一比一转换ExecutionJobVertex,ExecutionJobVertex会根据并发度拆分成ExecutionVertex,比如map1->Map2,就会变成两个ExecutionVertex

IntermediateDataSet会转成IntermediateResult,并根据生产结点个数,拆成不同的数据分区IntermediateResultPartition,比如map1->Map2,就会变成两个ExecutionVertex,同时有两个IntermediateResultPartition

转换之后的图为如下所示,其中:

IRP=IntermediateResultPartition 表示一个数据分区,数据分区满了之后会Flink会根据边ExecutionEdge的关联关系,提醒下游获取数据,进行计算

EE=ExecutionEdge表示一条边

EJV=ExecutionJobVertex 表示一个Task任务,由JobVertex一比一转换

EV=ExecutionVertex,由ExecutionJobVertex根据并发度拆出来的

根据debug断点也可以看到确实有五个ExecutionJobVertex,其中map1->map2结点有两个ExecutionVertex,每个ExecutionVertex有一个IntermediateResultPartition

六、后续

Execution是ExecutionVertex的执行抽象,Flink构成图之后,会将Execution结点分发到各个TaskManager进行执行,可以看下面本地debug图,各个Execution刚刚处于创建状态等待执行,具体后续执行流程各位感兴趣可以再继续探究

相关推荐
Runawayliquor2 小时前
opbase:CANN 所有算子的公共地基
大数据·数据库·人工智能·算法
做个文艺程序员2 小时前
第03篇:深入 Mapping 与数据类型设计——ES Schema 设计避坑指南
大数据·elasticsearch·搜索引擎·mapping设计
智塑未来2 小时前
app应用怎么接入广告?标准流程与落地实操方案全解析
大数据·网络·人工智能
️公子3 小时前
线束组装与测试技术
大数据·线束·线束总成
黎阳之光4 小时前
黎阳之光:以视频孪生重构智能监盘,为燃机打造新一代智慧电厂大脑
大数据·人工智能·算法·安全·数字孪生
Lalolander5 小时前
设备工程项目采购中缺料和浪费的痛点和解决思路
大数据·运维·设备工程项目管理系统·设备工程项目质量管控·设备工程项目成本管控
拉卡拉开放平台5 小时前
支付系统在文旅场景的进阶之路:聚合收单、分账与自动化对账
大数据·人工智能·自动化
互联网推荐官6 小时前
2026上海GEO优化服务商综合实力深度评测
大数据·人工智能·技术分享·geo·上海
QYR_116 小时前
4.3% 年复合增速:2026全球救生衣灯市场格局与海事合规发展报告
大数据·人工智能
铭毅天下6 小时前
Easysearch 版本进化全图——从 ES 国产替代到 AI Native 搜索数据库
大数据·数据库·人工智能·elasticsearch·搜索引擎