flink StreamGraph解析

Flink程序有三部分operation组成,分别是源source、转换transformation、目的地sink。这三部分构成DAG。

DAG首先生成的是StreamGraph。

用户代码在添加operation的时候会在env中缓存(变量transformations),在env.execute()执行的时候才会生成对应StreamGraph。

生成StreamGraph

transformations中只存了3个变量,其实是5个。

getStreamGraph顾名思义就是生成StreamGraph。

最后是getStreamGraphGenerator(transformations).generate()生成。getStreamGraphGenerator获取生成器,generate生成StreamGraph

generate方法中首先创建了StreamGraph对象,再遍历transformations给StreamGraph添加相关操作信息(transform(transformation))。其余部分都是处理相关的运行参数(执行参数、checkpoint参数、savepoint参数等)

transform中主要有三部分。

没有并行度,添加并行度

要是指定了slotGroup,将需要的slot资源记录到slotSharingGroupResources中

最后实际转换。优先使用_translatorMap_中存在的translator。这些translator是已经定义好的解释器,可以根据不同场景选择是流模式还是批模式。传统是legacyTransform

legacyTransform

根据情况处理单个流输入或多个流输入。

translate根据情况选择批处理或者流处理

addOperator和addEdge是重点方法,添加顶点和边。

StreamEdge

一个edge连接上下游两个node。

edgeId:唯一id

sourceId、targetId:连接的上下游node的id

outputPartitioner:分区器

StreamNode

一个node可以有多个edge

inEdges、outEdges:node的入边和出边

jobVertexClass:封装用户函数的执行类

StreamGraph

有多个streamNodes组成,streamNodes之间是streamEdge相连。

类似以下这种:

streamNodes:缓存graph所有的node

sources:DAG的输入源集合

sinks:DAG的输出源集合

添加node

addSink、addSource、addOperator是主要方法。可以看到addSink、addSource也是addOperator。

addOperator中addNode是添加StreamNode的方法。

addNode就是创建StreamNode对象,并添加到streamNodes中。

添加edge

方法是addEdge,内部调用addEdgeInternal

addEdgeInternal中前面是处理虚拟节点的。后面是调用createActualEdge来添加

createActualEdge中首先确定partitioner,没有指定partitioner就优先使用ForwardPartitioner,要求上下游并行度一样,否则使用RebalancePartitioner。

然后创建StreamEdge对象,并将相关信息绑定到对应的StreamNode上。

相关推荐
八月瓜科技9 分钟前
擎策·知海全球专利数据库 专业专利检索赋能 规避无效研发提效创新
大数据·数据库·人工智能·科技·aigc
天辛大师20 分钟前
天辛大师也谈大模型GEO技术,虚构与误导的重读
大数据·人工智能·决策树·随机森林·启发式算法
金融小师妹23 分钟前
基于多因子流动性模型的“黄金闪崩”解析:利率预期强化与资金再平衡驱动的金价8%下跌机制
大数据·人工智能·svn·能源
焦糖玛奇朵婷24 分钟前
盲盒小程序开发|解锁开箱新体验[特殊字符]
大数据·开发语言·程序人生·小程序·软件需求
黎阳之光26 分钟前
AI赋能安全新生态 黎阳之光锚定国家政策筑造数智防线
大数据·人工智能·算法·安全·数字孪生
WHD30626 分钟前
企业数据安全体系建设指南:从风险识别到技术落地的全流程(2026版)
大数据·网络·人工智能·安全·系统架构·密码学·安全架构
D愿你归来仍是少年31 分钟前
Apache Flink Checkpoint 与 Chandy-Lamport 算法深度解析
算法·flink·apache
docsz43 分钟前
Flink-1.20集群部署
linux·服务器·flink
天远云服1 小时前
驾培系统车辆核验实战:PHP集成天远二手车估值API实现学员车辆信息自动化管理
大数据·开发语言·自动化·php
AC赳赳老秦2 小时前
OpenClaw办公文档处理技能:批量转换PDF/Excel,提取数据高效办公
大数据·人工智能·python·django·去中心化·deepseek·openclaw