Spark中的宽窄依赖-宽窄巷子

在Spark中,宽窄依赖(Narrow and Wide Dependencies)是理解分布式计算和数据流动的关键概念,其特性与"宽窄巷子"的比喻有相似之处:

1、什么是依赖关系?

2、什么是宽窄依赖?

窄依赖:Narrow Dependencies

定义:父RDD的一个分区的数据只给了子RDD的一个分区 【 不用经过Shuffle

窄依赖(Narrow Dependency)

  • 定义 :子RDD的每个分区仅依赖于父RDD的一个分区 (如mapfilter操作)。
  • 特点
    • 数据无需跨节点移动(本地计算)

    • 高效且容错简单(只需重算单个分区)

    • 类似窄巷子:数据流单向、并行,无交叉

      窄依赖示例:map操作

      rdd = sc.parallelize([1, 2, 3])
      mapped = rdd.map(lambda x: x * 2) # 子分区仅依赖父RDD的同一分区

宽依赖(Wide Dependency)

  • 定义 :子RDD的每个分区依赖父RDD的多个分区 (如groupByKeyreduceByKey)。
  • 特点
    • Shuffle操作(数据跨节点重组)

    • 可能成为性能瓶颈(网络传输开销)

    • 类似宽巷子:多路数据汇聚交叉,需全局协调

      宽依赖示例:reduceByKey

      rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
      reduced = rdd.reduceByKey(lambda x, y: x + y) # 相同键的数据需从多分区聚合

性能优化建议

  1. 优先使用窄操作 :如用reduceByKey替代groupByKey(前者局部聚合减少Shuffle数据量)
  2. 调整分区数 :通过repartition()coalesce()控制Shuffle粒度
  3. 持久化中间结果 :对重复使用的宽依赖RDD调用persist()

数学表达补充

设RDD分区为集合P,依赖关系可形式化定义为: \\text{窄依赖:} \\quad \\forall p_i \\in P_{\\text{子}}, \\ \\exists! p_j \\in P_{\\text{父}} \\quad \\text{s.t.} \\quad p_i \\subseteq f(p_j) \\text{宽依赖:} \\quad \\exists p_i \\in P_{\\text{子}}, \\ \\ \|{p_j \\in P_{\\text{父}} \\mid p_i \\cap p_j \\neq \\emptyset}\| \> 1 其中f为转换函数。

相关推荐
段一凡-华北理工大学5 小时前
2026 高炉炼铁智能化技术全景与演进路径~系列文章11:演进路径与行业未来
大数据·网络·人工智能·算法·工业智能体·高炉炼铁智能化
搞科研的小刘选手5 小时前
【中山大学主办】第六届计算机科学与区块链国际学术会议(CCSB 2026)
分布式·神经网络·计算机视觉·区块链·计算机科学·共识算法·自然语言
狒狒热知识5 小时前
合规筑基专业赋能178软文网引领软文营销行业规范化发展
大数据
小饼干在学嘎瓦6 小时前
本地缓存和分布式缓存如何选择?
分布式·缓存
ZGi.ai7 小时前
企业AI资产管理体系:提示词、工作流、知识库应该怎么管
大数据·知识库·工作流编排·ai资产·提示词管理
XLYcmy8 小时前
全链路验证测试系统:一个针对智能代理(Agent)系统全链路能力的自动化验证脚本
分布式·python·http·网络安全·ai·llm·agent
爱分享的康康8 小时前
低成本自动驾驶数据采集设备理性分析:康谋入门套装适配性解析
大数据·人工智能
程序鉴定师9 小时前
上海小程序开发的坚实保障与行业优势解析
大数据·小程序
Elastic 中国社区官方博客9 小时前
我们如何在 Elasticsearch Serverless 上将向量搜索吞吐量提升一倍
大数据·数据库·人工智能·elasticsearch·搜索引擎·云原生·serverless
zgl_2005377910 小时前
源代码:跨数据库通用SQL语法解析与标注拆解
大数据·数据库·数据仓库·sql·etl·源代码管理