简述Spark的宽窄依赖以及Stage是怎么划分的以及每个stage又是怎么划分task任务数

首先是Spark宽窄依赖的定义:

简单来理解的话,窄依赖就是父RDD的每个分区最多被一个子RDD所依赖,是一对一依赖,这种情况的操作例如union,flatMap这样的操作,不会产生shuffle。

宽依赖有别名叫做shuffle依赖,就是父RDD的每个分区会被多个子RDD所依赖,例如ReduceByKey,join这样的操作,会产生shuffle

所以划分Stage的边界就是宽依赖,而窄依赖会被流水线话的合并到同一个Stage中进行处理

在Stage中,决定Task数量有两方面的task数据:

一方面是shuffle中的shuffleMapStage的task数据会根据上游EDD的分区数进行划分,有多少个分区就有多少个Task数据。

另外的resultSta的task数据则会根据下游最终那个RDD的需要所分区数据进行分区,这里我们可以进行通过参数控制task的数据,那么就会有200个task任务数,默认是200个分区数据,可以根据实际情况进行优化调参数。

相关推荐
随身数智备忘录6 分钟前
拆解安全生产法三大核心功能,安全生产法如何解决责任不清与事故追责难
大数据·人工智能·安全
少司府7 分钟前
Tools相关:深入浅出学Git
大数据·c++·git·gitee·github·仓库·分支
旺仔Sec12 分钟前
HBase 分布式集群部署实战:从解压到启动的完整指南
数据库·分布式·hbase
多年小白15 分钟前
今日A股 拉
大数据·人工智能·深度学习·microsoft·ai
2401_8685347816 分钟前
论快速应用开发方法及应用
大数据·python
humors22122 分钟前
听劝和辨劝
大数据·程序人生
cy_cy00225 分钟前
地砖感应屏在数字展厅的应用实践
大数据·科技·人机交互·交互·软件构建
扫地的小何尚27 分钟前
掌握 Agentic AI 技术:AI Agent 定制方法全景与实践路径
大数据·人工智能·算法·ai·llm·agent·nvidia
互联圈运营观察27 分钟前
泛微发布300+可落地AI应用 让组织业务数智升级
大数据·人工智能
阿星AI工作室9 小时前
刘润年中大课笔记:一句话说清AI落地之战的本质
大数据·人工智能·创业创新·商业