[flink]随笔

一、 flink运行模式

yarn上部署的过程是:客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会向Yarn的NodeManager申请容器。在这些容器上,Flink会部署JobManager和TaskManager的实例,从而启动集群。Flink会根据运行在JobManager上的作业所需要的Slot数量动态分配TaskManager资源。

bash 复制代码
yarn-session.sh \
-d #后台运行 
-nm #在yarn上显示的名字

二、并行度优先级

代码算子>代码env>提交时限定>配置文件

复制代码
env.setParallelism(5); #env
.flatMap(xxx).setParallelism(5) #算子

三、算子链(Operator Chain)

一个数据流在算子之间传输数据的形式可以是一对一(one to one)的直通(forwarding)模式,也可以是打乱的重分区(redistributing)模式,具体是哪一种形式,取决于算子的种类。

1、算子间的数据传输

1)一对一(one to one,forwarding)

这种模式下,数据流维护着分区以及元素的顺序。比如图中的source和map算子,source算子读取数据之后,可以直接发送给map算子做处理,他们之间不需要重分区 ,也不需要调整数据的顺序 。这就意味着map算子的子任务,看到的元素个数和顺序跟source算子的子任务产生的完全一样,保证着'一对一'的关系。map、filter、flatMap等算子都是这种one-to-one的对应关系。这种关系类似于Spark中的窄依赖

2)重分区(Redistributing)

在这种模式下,数据流的分区会发生改变。比如图中的map和后面的keyBy/window算子之间,以及keyBy/window算子和sink算子之间,都是这样的关系。

每一个算子的子任务,会根据数据传输的策略,把数据发送到不同的下游目标任务 。这些传输方式都会引起重分区的过程,这一过程类似于Spark中的Shuffle

2、合并算子链

在Flink中,并行度相同的一对一(one to one)算子操作,可以直接链接在一起形成一个'大'的任务(task),这样原来的算子就成为了真正任务里的一部分,如下图所示。每个task会被一个线程执行。这样的技术被称为"算子链"(Operator Chain)。

上图中Source和map之间满足了算子链的要求,所以可以直接合并在一起,形成了一个任务;因为并行度为2,所以合并后也有两个并行子任务。这样,这个数据流图所表示的作业最终会有5个任务,由5个线程并行执行。

将算子链接成task事非常有效的优化;可以减少线程之间的切换和基于缓存区的数据交换,在减少时延的同时提高吞吐量。

Flink默认会按照算子链的原则进行链接合并,如果我们想要禁止合并或者自行定义,也可以在代码中对算子做一些特定的设置。

java 复制代码
//禁止算子链
.map(xxx).disableChaining;
//从当前算子开始新链
.map(xxx).startNewChain;

3、梳理算子链

1)算子间传输关系:

一对一、充分区

2)算子,串在一起的条件:

一对一 且 并行度相同

3)关于算子链的api

①全局禁用算子链:env.disableOperatorChaining();

②某个算子不参与链化:算子A(xxx).disableChaining(); 此时算子A不会与前面和后面的算子串 在一起

③从某个算子开启新的链条:算子A.startNewChain();算子A不与前面的算子串在一起,从A开 始正常链化。

4)禁用算子链的情况

计算逻辑复杂:如果一个task中的多个算子,每个算子计算逻辑都很复杂就不适合合在一起。

排错:如果在一起算子链中,就不知道是具体哪个算子出问题了。

相关推荐
keke.shengfengpolang2 小时前
2026大专大数据与财务管理:不止是会计
大数据
龙山云仓3 小时前
No160:AI中国故事-对话耿恭——孤城坚守与AI韧性:极端环境与信念之光
大数据·人工智能·机器学习
sensen_kiss4 小时前
INT303 Coursework2 贷款批准预测模型(对整个大数据知识的应用)
大数据·机器学习·数据分析
优思学苑9 小时前
过程能力指标CPK高为何现场仍不稳?
大数据·人工智能·管理·pdca·管理方法
qyr678910 小时前
分布式光纤传感全球市场调研报告分析
大数据·人工智能·物联网·分布式光纤传感·市场分析·市场报告
龙亘川11 小时前
城管住建领域丨市政设施监测功能详解(4)——路灯设施监测
大数据·人工智能·路灯设施监测
XLYcmy12 小时前
智能体大赛 总结与展望 比赛总结
大数据·ai·llm·prompt·agent·qwen·万方数据库
zchxzl12 小时前
亲测2026京津冀专业广告展会
大数据·人工智能·python
Elastic 中国社区官方博客12 小时前
在 Kubernetes 上的依赖管理
大数据·elasticsearch·搜索引擎·云原生·容器·kubernetes·全文检索
babe小鑫12 小时前
大专工业大数据应用专业学习数据分析的价值分析
大数据·学习·数据分析