宽窄依赖/宽窄巷子——spark

宽窄依赖是用于标记算子是否需要shuffle过程的

------本质:只是一种标记,标记两个RDD之间的依赖关系,用于判断是否需要进行shuffle

窄依赖:Narrow Dependencies

复制代码

定义:父RDD的一个分区的数据只给了子RDD的一个分区 【不用经过Shuffle】 特点:一对一或者多对一 不经过Shuffle,性能相对较快, 但无法实现全局分区、排序、分组等 一个Stage内部的计算都是窄依赖的过程,全部在内存中 完成。

宽依赖:Wide/Shuffle Dependencies

复制代码

定义:父RDD的一个分区的数据给了子RDD的多个分区 【需要调用Shuffle的分区器来实现】 特点:一对多,必须经过Shuffle ,性能相对较慢,可以实现全局分区、排序、分组等 Spark的job中按照宽依赖来划分不同的Stage

为什么要标记宽窄关系?

1)提高数据容错的性能,避免分区数据丢失时,需要重新构建整个RDD

复制代码
场景:如果子RDD的某个分区的数据丢失
不标记:不清楚父RDD分区与子RDD分区数据之间的关系,必须重新构建整个父RDD所有分区数据
标记了:父RDD一个分区只对应子RDD的一个分区,按照对应关系恢复父RDD的对应分区即可

2)提高数据转换的性能,将连续窄依赖操作使用同一个Task都放在内存中直接转换

复制代码
如果不标记,怎么知道哪些算子需要shuffer呢?
------------就只能把数据放在磁盘,让shuffer算子,去拉取数据,效率低
相关推荐
云和恩墨2 小时前
OceanBase企业版会话级SQL跟踪实操:DBMS_MONITOR(类Oracle 10046事件)
数据库·sql·oracle·oceanbase
为什么不问问神奇的海螺呢丶2 小时前
oracle 数据库巡检 sql
数据库·sql·oracle
麦麦鸡腿堡2 小时前
MySQL数据库操作指令
数据库·mysql
未来之窗软件服务5 小时前
一体化系统(九)智慧社区综合报表——东方仙盟练气期
大数据·前端·仙盟创梦ide·东方仙盟·东方仙盟一体化
陈天伟教授8 小时前
人工智能训练师认证教程(2)Python os入门教程
前端·数据库·python
火星资讯8 小时前
Zenlayer AI Gateway 登陆 Dify 市场,轻装上阵搭建 AI Agent
大数据·人工智能
星海拾遗8 小时前
git rebase记录
大数据·git·elasticsearch
Elastic 中国社区官方博客8 小时前
Elasticsearch:在分析过程中对数字进行标准化
大数据·数据库·elasticsearch·搜索引擎·全文检索
聪明努力的积极向上9 小时前
【MYSQL】字符串拼接和参数化sql语句区别
数据库·sql·mysql
代码or搬砖9 小时前
RBAC(权限认证)小例子
java·数据库·spring boot