Flink并行度

1、Task

flink中每个算子就是一个Task,比如flatMap、map、sum是一个Task。

2、SubTask

算子有几个并行度SubTask的数量就是几,比如

3、算子并行度

算子并行度指的是每个算子的并行度,可用env.setParallelism(1);设置所有算子的并行度,也可以对每个算子单独设置,通过降数据流划分为多个并行的算子实例(SubTask)可实现数据的并行处理。

一个Job的并行度是算子并行度的最大值,比如一个Job中有map算子并行度是2、filter算子并行度是4,则任务并行度就是4。

总结:Flink中,每一个算子都可以成为一个独立任务(task)。

相关推荐
T062051419 分钟前
【实证分析】上市公司企业风险承担水平数据集(2000-2022年)
大数据·人工智能
G皮T34 分钟前
【Elasticsearch】映射:Join 类型、Flattened 类型、多表关联设计
大数据·elasticsearch·搜索引擎·nested·join·多表关联·flattened
G皮T38 分钟前
【Elasticsearch】映射:Nested 类型
大数据·elasticsearch·搜索引擎·映射·nested·嵌套类型·mappings
狂奔solar40 分钟前
逻辑回归暴力训练预测金融欺诈
大数据·金融·逻辑回归
tcoding2 小时前
《基于Apache Flink的流处理》笔记
笔记·flink·apache
linmoo19862 小时前
Flink 系列之二十二 - 高级概念 - 保存点
大数据·flink·savepoint·保存点
试剂界的爱马仕3 小时前
TCA 循环中间体如何改写肝损伤命运【AbMole】
大数据·人工智能·科技·机器学习·ai写作
Leo.yuan4 小时前
数据湖是什么?数据湖和数据仓库的区别是什么?
大数据·运维·数据仓库·人工智能·信息可视化
hao_wujing5 小时前
基于梯度的中毒攻击
大数据·人工智能
qq_4639448616 小时前
【Spark征服之路-2.2-安装部署Spark(二)】
大数据·分布式·spark