宽窄依赖/宽窄巷子——spark

宽窄依赖是用于标记算子是否需要shuffle过程的

------本质:只是一种标记,标记两个RDD之间的依赖关系,用于判断是否需要进行shuffle

窄依赖:Narrow Dependencies

复制代码

定义:父RDD的一个分区的数据只给了子RDD的一个分区 【不用经过Shuffle】 特点:一对一或者多对一 不经过Shuffle,性能相对较快, 但无法实现全局分区、排序、分组等 一个Stage内部的计算都是窄依赖的过程,全部在内存中 完成。

宽依赖:Wide/Shuffle Dependencies

复制代码

定义:父RDD的一个分区的数据给了子RDD的多个分区 【需要调用Shuffle的分区器来实现】 特点:一对多,必须经过Shuffle ,性能相对较慢,可以实现全局分区、排序、分组等 Spark的job中按照宽依赖来划分不同的Stage

为什么要标记宽窄关系?

1)提高数据容错的性能,避免分区数据丢失时,需要重新构建整个RDD

复制代码
场景:如果子RDD的某个分区的数据丢失
不标记:不清楚父RDD分区与子RDD分区数据之间的关系,必须重新构建整个父RDD所有分区数据
标记了:父RDD一个分区只对应子RDD的一个分区,按照对应关系恢复父RDD的对应分区即可

2)提高数据转换的性能,将连续窄依赖操作使用同一个Task都放在内存中直接转换

复制代码
如果不标记,怎么知道哪些算子需要shuffer呢?
------------就只能把数据放在磁盘,让shuffer算子,去拉取数据,效率低
相关推荐
神梦流2 小时前
ops-math 算子库的扩展能力:高精度与复数运算的硬件映射策略
服务器·数据库
让学习成为一种生活方式2 小时前
trf v4.09.1 安装与使用--生信工具42-version2
数据库
Coder_Boy_2 小时前
基于Spring AI的分布式在线考试系统-事件处理架构实现方案
人工智能·spring boot·分布式·spring
啦啦啦_99992 小时前
Redis-5-doFormatAsync()方法
数据库·redis·c#
AEIC学术交流中心2 小时前
【快速EI检索 | ACM出版】2026年大数据与智能制造国际学术会议(BDIM 2026)
大数据·制造
生产队队长2 小时前
Redis:Windows环境安装Redis,并将 Redis 进程注册为服务
数据库·redis·缓存
老邓计算机毕设2 小时前
SSM找学互助系统52568(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
数据库·ssm 框架·javaweb 毕业设计
wending-Y2 小时前
记录一次排查Flink一直重启的问题
大数据·flink
痴儿哈哈2 小时前
自动化机器学习(AutoML)库TPOT使用指南
jvm·数据库·python
UI设计兰亭妙微2 小时前
医疗大数据平台电子病例界面设计
大数据·界面设计