Spark中的宽窄依赖-宽窄巷子

在Spark中,宽窄依赖(Narrow and Wide Dependencies)是理解分布式计算和数据流动的关键概念,其特性与"宽窄巷子"的比喻有相似之处:

1、什么是依赖关系?

2、什么是宽窄依赖?

窄依赖:Narrow Dependencies

定义:父RDD的一个分区的数据只给了子RDD的一个分区 【 不用经过Shuffle

窄依赖(Narrow Dependency)

  • 定义 :子RDD的每个分区仅依赖于父RDD的一个分区 (如mapfilter操作)。
  • 特点
    • 数据无需跨节点移动(本地计算)

    • 高效且容错简单(只需重算单个分区)

    • 类似窄巷子:数据流单向、并行,无交叉

      窄依赖示例:map操作

      rdd = sc.parallelize([1, 2, 3])
      mapped = rdd.map(lambda x: x * 2) # 子分区仅依赖父RDD的同一分区

宽依赖(Wide Dependency)

  • 定义 :子RDD的每个分区依赖父RDD的多个分区 (如groupByKeyreduceByKey)。
  • 特点
    • Shuffle操作(数据跨节点重组)

    • 可能成为性能瓶颈(网络传输开销)

    • 类似宽巷子:多路数据汇聚交叉,需全局协调

      宽依赖示例:reduceByKey

      rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
      reduced = rdd.reduceByKey(lambda x, y: x + y) # 相同键的数据需从多分区聚合

性能优化建议

  1. 优先使用窄操作 :如用reduceByKey替代groupByKey(前者局部聚合减少Shuffle数据量)
  2. 调整分区数 :通过repartition()coalesce()控制Shuffle粒度
  3. 持久化中间结果 :对重复使用的宽依赖RDD调用persist()

数学表达补充

设RDD分区为集合P,依赖关系可形式化定义为: $$ \text{窄依赖:} \quad \forall p_i \in P_{\text{子}}, \ \exists! p_j \in P_{\text{父}} \quad \text{s.t.} \quad p_i \subseteq f(p_j) $$ $$ \text{宽依赖:} \quad \exists p_i \in P_{\text{子}}, \ \ |{p_j \in P_{\text{父}} \mid p_i \cap p_j \neq \emptyset}| > 1 $$ 其中f为转换函数。

相关推荐
隐于花海,等待花开23 分钟前
数据开发常问的技术性问题及解答
大数据·hive
数据中心的那点事儿24 分钟前
从设计到运营全链破局 恒华智算专场解锁产业升级密码
大数据·人工智能
天辛大师2 小时前
山东居士林:天辛大师用AI+预测城市田园农场运营调配
大数据·人工智能·随机森林·机器人·启发式算法
盘古信息IMS2 小时前
注塑工厂上MES系统,如何选对厂商实现数智化跃迁?
大数据·人工智能·物联网
阿坤带你走近大数据3 小时前
OracleSQL优化案例-2
大数据·oracle·sql优化
快递鸟社区3 小时前
物流基础知识详解及高效管理工具应用
大数据
cd_949217213 小时前
新北洋亮相2026 CHINASHOP:以“智印零售全生态”赋能效率与增长
大数据·人工智能·零售
IoT物联网产品手记3 小时前
IoT产品模块化架构设计:从功能堆叠到能力组合的系统方法
大数据·人工智能·物联网
几分醉意.3 小时前
Bright Data Web Scraping 实战:用 MCP + Dify 构建 Amazon 数据采集 AI 工作流(2026 指南)
大数据·人工智能·bright data mcp·dift
redsea_HR3 小时前
2026年eHR系统选购:10大品牌核心差异对比
大数据·人工智能