3.4 理解RDD依赖

本次实战通过代码验证了 RDD 的窄依赖与宽依赖特性。窄依赖以 map 算子为例,Spark UI 显示仅有一个 Stage,无 Shuffle 读写,且操作前后分区数(2)和元素数(5)保持不变,体现了一对一的高效流水线计算。宽依赖以 reduceByKey 为例,UI 显示作业被切分为两个 Stage,存在 Shuffle 读写数据,验证了"一对多"的重分布过程;操作后分区数虽保持为 2,但元素数由 5 减至 3,体现了聚合功能。

相关推荐
howard20059 天前
2.4.1 词频统计准备工作
spark rdd·词频统计准备
howard20055 个月前
Spark实战:使用spark-submit提交并执行JAR包
spark rdd·spark-submit
howard20055 个月前
PySpark实战 - 1.1 利用RDD实现词频统计
pyspark·词频统计·spark rdd
howard20051 年前
3.8.2 利用RDD计算总分与平均分
spark rdd·计算总分与平均分
howard20051 年前
3.2.3 掌握RDD转换算子 - 5. 合并算子 - union()
合并算子·spark rdd
夜夜流光相皎洁_小宁2 年前
Spark 分布式弹性计算集(RDD)相关概念介绍
弹性分布式数据集·apache spark·spark rdd·rdd持久化·rdd partition分区
howard20052 年前
任务3.8.4 利用RDD实现分组排行榜
topn·spark rdd
howard20052 年前
任务3.8.1 利用RDD实现词频统计
词频统计·spark rdd