Spark 中的 Shuffle 是分布式数据交换的核心流程,从源码角度分析 Shuffle 的执行路径

Spark 中的 Shuffle 是分布式数据交换的核心流程,涉及多个组件的协同工作。为了深入理解其处理过程,我们可以从源码角度分析 Shuffle 的执行路径,分为 Shuffle WriteShuffle Read 两个阶段。


1. Shuffle Write 阶段

Shuffle Write 的主要任务是将 Mapper 的数据按照分区规则(如 HashPartitioner)分割、排序并写入磁盘。

1.1 数据分区与序列化
  • 入口方法

    Mapper 阶段的 compute() 方法中调用了 ShuffleDependency 的相关逻辑。

    scala 复制代码
    val partition = partitioner.getPartition(key)

    数据会根据 partitioner(如 HashPartitioner 或自定义分区器)计算目标分区。

  • 序列化

    每条数据会通过 serializerInstance.serialize() 进行序列化,将数据转换成字节流以便后续写入。

1.2 数据排序与溢写(Spill)
  • 排序

    SortShuffleWriter 中,数据会被放入内存中的 PartitionedAppendOnlyMapPartitionedPairBuffer 进行排序(根据键的自然顺序或用户指定的比较器)。

  • 溢写到磁盘

    当内存不足时,会触发溢写(spill)。溢写的数据会写到多个磁盘文件,每个文件对应多个分区。

1.3 合并分区数据
  • 归并操作
    在溢写文件较多时,Spark 会对这些临时文件执行归并排序,生成最终的分区文件。
    • 对于 BypassMergeSortShuffleWriter,会直接将分区文件写出,无需排序。
    • 对于 SortShuffleWriter,归并排序确保每个分区的数据有序。
1.4 写出索引文件
  • 最后,Shuffle Write 阶段会生成一个索引文件(shuffleId_0.index)和数据文件(shuffleId_0.data)。
    • 索引文件:记录每个分区在数据文件中的偏移量,用于快速定位分区数据。
    • 数据文件:存储分区后的数据。

2. Shuffle Read 阶段

Shuffle Read 阶段由 Reducer 执行,任务是从分布式存储中拉取相应分区的数据。

2.1 拉取数据
  • 入口方法

    Reducer 的 compute() 方法会调用 BlockStoreShuffleFetcher.fetch()MapOutputTracker 获取每个分区的数据位置。

    scala 复制代码
    val blocksByAddress = mapOutputTracker.getMapSizesByExecutorId(shuffleId, reduceId)
  • 数据传输

    数据通过 Spark 的 BlockManager 拉取。如果目标数据在同一节点上,可以通过本地文件系统读取;如果在远程节点上,则通过 Netty 或 HTTP 传输。

2.2 数据解压与反序列化
  • 解压

    如果数据经过压缩(如 LZ4、Snappy),在读取时会被解压缩。

    • 压缩相关配置:spark.shuffle.compress=truespark.shuffle.spill.compress=true
  • 反序列化

    使用与 Shuffle Write 相同的序列化器(如 Kryo 或 JavaSerializer)将字节流转换回对象。

2.3 数据聚合与处理
  • 拉取到的数据会根据 Reducer 的逻辑(如 reduceByKeyaggregateByKey)进行聚合或排序处理。

3. 关键组件的协作关系

  • ShuffleManager

    决定使用哪种类型的 Shuffle,如 SortShuffleManagerHashShuffleManager

  • ShuffleWriter

    负责数据写入磁盘,主要实现类:

    • BypassMergeSortShuffleWriter
    • SortShuffleWriter
  • ShuffleReader

    负责从不同节点拉取数据,主要实现类:

    • BlockStoreShuffleReader
  • MapOutputTracker

    负责跟踪每个 Mapper 的输出分区位置,Reducer 会通过它获取分区数据的位置。


4. Shuffle 设计的优缺点

特性 优点 缺点
分区文件索引 减少数据读取时的随机 I/O 开销 索引管理复杂度增加
排序优化 提高数据局部性和读取效率 需要更多的 CPU 和内存资源
溢写与归并 避免内存溢出,支持大规模数据处理 增加磁盘 I/O 开销
数据压缩 减少网络传输和存储空间 压缩和解压缩会增加 CPU 开销

源码路径及关键类

  1. Shuffle Write

    • SortShuffleWriterorg.apache.spark.shuffle.sort.SortShuffleWriter
    • BypassMergeSortShuffleWriterorg.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter
  2. Shuffle Read

    • BlockStoreShuffleReaderorg.apache.spark.shuffle.BlockStoreShuffleReader
  3. Shuffle 依赖与管理

    • ShuffleDependencyorg.apache.spark.shuffle.ShuffleDependency
    • ShuffleManagerorg.apache.spark.shuffle.ShuffleManager

5. 性能优化方向

  1. 调优分区数

    • 合理配置 spark.sql.shuffle.partitionsspark.default.parallelism,避免分区数过多或过少。
  2. 压缩与序列化

    • 优化序列化器(推荐使用 Kryo),并启用压缩来减少网络开销。
  3. 内存管理

    • 调整 spark.memory.fraction,确保 Shuffle 缓存有足够的内存。
  4. 使用外部 Shuffle 服务

    • 启用 ExternalShuffleService,减轻 Executor 的内存和磁盘压力。

通过以上分析,可以从源码和优化角度全面理解 Spark Shuffle 的设计与工作原理。

相关推荐
青云交14 分钟前
大数据新视界 -- Hive 数据仓库:构建高效数据存储的基石(下)(2/ 30)
大数据·数据仓库·hive·数据安全·数据分区·数据桶·大数据存储
zmd-zk23 分钟前
flink学习(2)——wordcount案例
大数据·开发语言·学习·flink
电子手信25 分钟前
知识中台在多语言客户中的应用
大数据·人工智能·自然语言处理·数据挖掘·知识图谱
天冬忘忧1 小时前
Kafka 数据倾斜:原因、影响与解决方案
分布式·kafka
隔着天花板看星星1 小时前
Kafka-Consumer理论知识
大数据·分布式·中间件·kafka
holywangle1 小时前
解决Flink读取kafka主题数据无报错无数据打印的重大发现(问题已解决)
大数据·flink·kafka
隔着天花板看星星1 小时前
Kafka-副本分配策略
大数据·分布式·中间件·kafka
Lorin 洛林1 小时前
Hadoop 系列 MapReduce:Map、Shuffle、Reduce
大数据·hadoop·mapreduce
金刚猿1 小时前
简单理解下基于 Redisson 库的分布式锁机制
分布式·分布式锁·redisson
DolphinScheduler社区1 小时前
大数据调度组件之Apache DolphinScheduler
大数据