Spark中的宽窄依赖-宽窄巷子

在Spark中,宽窄依赖(Narrow and Wide Dependencies)是理解分布式计算和数据流动的关键概念,其特性与"宽窄巷子"的比喻有相似之处:

1、什么是依赖关系?

2、什么是宽窄依赖?

窄依赖:Narrow Dependencies

定义:父RDD的一个分区的数据只给了子RDD的一个分区 【 不用经过Shuffle

窄依赖(Narrow Dependency)

  • 定义 :子RDD的每个分区仅依赖于父RDD的一个分区 (如mapfilter操作)。
  • 特点
    • 数据无需跨节点移动(本地计算)

    • 高效且容错简单(只需重算单个分区)

    • 类似窄巷子:数据流单向、并行,无交叉

      窄依赖示例:map操作

      rdd = sc.parallelize([1, 2, 3])
      mapped = rdd.map(lambda x: x * 2) # 子分区仅依赖父RDD的同一分区

宽依赖(Wide Dependency)

  • 定义 :子RDD的每个分区依赖父RDD的多个分区 (如groupByKeyreduceByKey)。
  • 特点
    • Shuffle操作(数据跨节点重组)

    • 可能成为性能瓶颈(网络传输开销)

    • 类似宽巷子:多路数据汇聚交叉,需全局协调

      宽依赖示例:reduceByKey

      rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
      reduced = rdd.reduceByKey(lambda x, y: x + y) # 相同键的数据需从多分区聚合

性能优化建议

  1. 优先使用窄操作 :如用reduceByKey替代groupByKey(前者局部聚合减少Shuffle数据量)
  2. 调整分区数 :通过repartition()coalesce()控制Shuffle粒度
  3. 持久化中间结果 :对重复使用的宽依赖RDD调用persist()

数学表达补充

设RDD分区为集合P,依赖关系可形式化定义为: $$ \text{窄依赖:} \quad \forall p_i \in P_{\text{子}}, \ \exists! p_j \in P_{\text{父}} \quad \text{s.t.} \quad p_i \subseteq f(p_j) $$ $$ \text{宽依赖:} \quad \exists p_i \in P_{\text{子}}, \ \ |{p_j \in P_{\text{父}} \mid p_i \cap p_j \neq \emptyset}| > 1 $$ 其中f为转换函数。

相关推荐
深蓝电商API17 小时前
分布式事务在跨境交易中的解决方案
分布式·跨境电商·代购系统·反向海淘·代购平台·跨境代购
藦卡机器人17 小时前
中国工业机器人发展现状
大数据·人工智能·机器人
Simon_lca18 小时前
突破合规瓶颈:ZDHC Supplier to Zero(工厂零排放 - 进阶型)体系全攻略
大数据·网络·人工智能·分类·数据挖掘·数据分析·零售
黄焖鸡能干四碗20 小时前
网络安全建设实施方案(Word文件参考下载)
大数据·网络·人工智能·安全·web安全·制造
云境筑桃源哇21 小时前
马踏春风 为爱启航 | 瑞派宠物医院(南部新城旗舰店)盛大开业!打造宠物医疗新标杆!
大数据·宠物
我真会写代码21 小时前
从入门到精通:Kafka核心原理与实战避坑指南
分布式·缓存·kafka
xixixi7777721 小时前
2026 年 03 月 20 日 AI+通信+安全行业日报(来更新啦)
大数据·人工智能·安全·ai·大模型·通信
F36_9_21 小时前
大数据治理平台选型避坑:2026 年 8 大主流系统实测
大数据·数据治理
成长之路5141 天前
【实证分析】A股上市公司企业劳动力需求数据集(2000-2023年)
大数据
奔跑的呱呱牛1 天前
GeoJSON 在大数据场景下为什么不够用?替代方案分析
java·大数据·servlet·gis·geojson