[flink]随笔

一、 flink运行模式

yarn上部署的过程是:客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会向Yarn的NodeManager申请容器。在这些容器上,Flink会部署JobManager和TaskManager的实例,从而启动集群。Flink会根据运行在JobManager上的作业所需要的Slot数量动态分配TaskManager资源。

bash 复制代码
yarn-session.sh \
-d #后台运行 
-nm #在yarn上显示的名字

二、并行度优先级

代码算子>代码env>提交时限定>配置文件

复制代码
env.setParallelism(5); #env
.flatMap(xxx).setParallelism(5) #算子

三、算子链(Operator Chain)

一个数据流在算子之间传输数据的形式可以是一对一(one to one)的直通(forwarding)模式,也可以是打乱的重分区(redistributing)模式,具体是哪一种形式,取决于算子的种类。

1、算子间的数据传输

1)一对一(one to one,forwarding)

这种模式下,数据流维护着分区以及元素的顺序。比如图中的source和map算子,source算子读取数据之后,可以直接发送给map算子做处理,他们之间不需要重分区 ,也不需要调整数据的顺序 。这就意味着map算子的子任务,看到的元素个数和顺序跟source算子的子任务产生的完全一样,保证着'一对一'的关系。map、filter、flatMap等算子都是这种one-to-one的对应关系。这种关系类似于Spark中的窄依赖

2)重分区(Redistributing)

在这种模式下,数据流的分区会发生改变。比如图中的map和后面的keyBy/window算子之间,以及keyBy/window算子和sink算子之间,都是这样的关系。

每一个算子的子任务,会根据数据传输的策略,把数据发送到不同的下游目标任务 。这些传输方式都会引起重分区的过程,这一过程类似于Spark中的Shuffle

2、合并算子链

在Flink中,并行度相同的一对一(one to one)算子操作,可以直接链接在一起形成一个'大'的任务(task),这样原来的算子就成为了真正任务里的一部分,如下图所示。每个task会被一个线程执行。这样的技术被称为"算子链"(Operator Chain)。

上图中Source和map之间满足了算子链的要求,所以可以直接合并在一起,形成了一个任务;因为并行度为2,所以合并后也有两个并行子任务。这样,这个数据流图所表示的作业最终会有5个任务,由5个线程并行执行。

将算子链接成task事非常有效的优化;可以减少线程之间的切换和基于缓存区的数据交换,在减少时延的同时提高吞吐量。

Flink默认会按照算子链的原则进行链接合并,如果我们想要禁止合并或者自行定义,也可以在代码中对算子做一些特定的设置。

java 复制代码
//禁止算子链
.map(xxx).disableChaining;
//从当前算子开始新链
.map(xxx).startNewChain;

3、梳理算子链

1)算子间传输关系:

一对一、充分区

2)算子,串在一起的条件:

一对一 且 并行度相同

3)关于算子链的api

①全局禁用算子链:env.disableOperatorChaining();

②某个算子不参与链化:算子A(xxx).disableChaining(); 此时算子A不会与前面和后面的算子串 在一起

③从某个算子开启新的链条:算子A.startNewChain();算子A不与前面的算子串在一起,从A开 始正常链化。

4)禁用算子链的情况

计算逻辑复杂:如果一个task中的多个算子,每个算子计算逻辑都很复杂就不适合合在一起。

排错:如果在一起算子链中,就不知道是具体哪个算子出问题了。

相关推荐
私域合规研究4 分钟前
【AI应用】AI与大数据融合:中国品牌出海获客的下一代核心引擎
大数据·海外获客
TDengine (老段)24 分钟前
金融风控系统中的实时数据库技术实践
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
MMME~1 小时前
Ansible模块速查指南:高效定位与实战技巧
大数据·运维·数据库
计算机毕业编程指导师1 小时前
大数据可视化毕设:Hadoop+Spark交通分析系统从零到上线 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·城市交通
计算机毕业编程指导师1 小时前
【计算机毕设选题】基于Spark的车辆排放分析:2026年热门大数据项目 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·车辆排放
珠海西格1 小时前
远动通信装置为何是电网安全运行的“神经中枢”?
大数据·服务器·网络·数据库·分布式·安全·区块链
ha_lydms2 小时前
DataWorks离线同步 OSS文件
大数据·阿里云·oss·dataworks·maxcompute·数据同步·离线计算
山峰哥2 小时前
SQL优化全解析:从索引策略到查询性能飞跃
大数据·数据库·sql·编辑器·深度优先
CTO Plus技术服务中2 小时前
Flink运维与开发教程
大数据·运维·flink
EveryPossible2 小时前
大数据模型练习4
大数据