Spark 中的 Shuffle 是分布式数据交换的核心流程,从源码角度分析 Shuffle 的执行路径

Spark 中的 Shuffle 是分布式数据交换的核心流程,涉及多个组件的协同工作。为了深入理解其处理过程,我们可以从源码角度分析 Shuffle 的执行路径,分为 Shuffle WriteShuffle Read 两个阶段。


1. Shuffle Write 阶段

Shuffle Write 的主要任务是将 Mapper 的数据按照分区规则(如 HashPartitioner)分割、排序并写入磁盘。

1.1 数据分区与序列化
  • 入口方法

    Mapper 阶段的 compute() 方法中调用了 ShuffleDependency 的相关逻辑。

    scala 复制代码
    val partition = partitioner.getPartition(key)

    数据会根据 partitioner(如 HashPartitioner 或自定义分区器)计算目标分区。

  • 序列化

    每条数据会通过 serializerInstance.serialize() 进行序列化,将数据转换成字节流以便后续写入。

1.2 数据排序与溢写(Spill)
  • 排序

    SortShuffleWriter 中,数据会被放入内存中的 PartitionedAppendOnlyMapPartitionedPairBuffer 进行排序(根据键的自然顺序或用户指定的比较器)。

  • 溢写到磁盘

    当内存不足时,会触发溢写(spill)。溢写的数据会写到多个磁盘文件,每个文件对应多个分区。

1.3 合并分区数据
  • 归并操作
    在溢写文件较多时,Spark 会对这些临时文件执行归并排序,生成最终的分区文件。
    • 对于 BypassMergeSortShuffleWriter,会直接将分区文件写出,无需排序。
    • 对于 SortShuffleWriter,归并排序确保每个分区的数据有序。
1.4 写出索引文件
  • 最后,Shuffle Write 阶段会生成一个索引文件(shuffleId_0.index)和数据文件(shuffleId_0.data)。
    • 索引文件:记录每个分区在数据文件中的偏移量,用于快速定位分区数据。
    • 数据文件:存储分区后的数据。

2. Shuffle Read 阶段

Shuffle Read 阶段由 Reducer 执行,任务是从分布式存储中拉取相应分区的数据。

2.1 拉取数据
  • 入口方法

    Reducer 的 compute() 方法会调用 BlockStoreShuffleFetcher.fetch()MapOutputTracker 获取每个分区的数据位置。

    scala 复制代码
    val blocksByAddress = mapOutputTracker.getMapSizesByExecutorId(shuffleId, reduceId)
  • 数据传输

    数据通过 Spark 的 BlockManager 拉取。如果目标数据在同一节点上,可以通过本地文件系统读取;如果在远程节点上,则通过 Netty 或 HTTP 传输。

2.2 数据解压与反序列化
  • 解压

    如果数据经过压缩(如 LZ4、Snappy),在读取时会被解压缩。

    • 压缩相关配置:spark.shuffle.compress=truespark.shuffle.spill.compress=true
  • 反序列化

    使用与 Shuffle Write 相同的序列化器(如 Kryo 或 JavaSerializer)将字节流转换回对象。

2.3 数据聚合与处理
  • 拉取到的数据会根据 Reducer 的逻辑(如 reduceByKeyaggregateByKey)进行聚合或排序处理。

3. 关键组件的协作关系

  • ShuffleManager

    决定使用哪种类型的 Shuffle,如 SortShuffleManagerHashShuffleManager

  • ShuffleWriter

    负责数据写入磁盘,主要实现类:

    • BypassMergeSortShuffleWriter
    • SortShuffleWriter
  • ShuffleReader

    负责从不同节点拉取数据,主要实现类:

    • BlockStoreShuffleReader
  • MapOutputTracker

    负责跟踪每个 Mapper 的输出分区位置,Reducer 会通过它获取分区数据的位置。


4. Shuffle 设计的优缺点

特性 优点 缺点
分区文件索引 减少数据读取时的随机 I/O 开销 索引管理复杂度增加
排序优化 提高数据局部性和读取效率 需要更多的 CPU 和内存资源
溢写与归并 避免内存溢出,支持大规模数据处理 增加磁盘 I/O 开销
数据压缩 减少网络传输和存储空间 压缩和解压缩会增加 CPU 开销

源码路径及关键类

  1. Shuffle Write

    • SortShuffleWriterorg.apache.spark.shuffle.sort.SortShuffleWriter
    • BypassMergeSortShuffleWriterorg.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter
  2. Shuffle Read

    • BlockStoreShuffleReaderorg.apache.spark.shuffle.BlockStoreShuffleReader
  3. Shuffle 依赖与管理

    • ShuffleDependencyorg.apache.spark.shuffle.ShuffleDependency
    • ShuffleManagerorg.apache.spark.shuffle.ShuffleManager

5. 性能优化方向

  1. 调优分区数

    • 合理配置 spark.sql.shuffle.partitionsspark.default.parallelism,避免分区数过多或过少。
  2. 压缩与序列化

    • 优化序列化器(推荐使用 Kryo),并启用压缩来减少网络开销。
  3. 内存管理

    • 调整 spark.memory.fraction,确保 Shuffle 缓存有足够的内存。
  4. 使用外部 Shuffle 服务

    • 启用 ExternalShuffleService,减轻 Executor 的内存和磁盘压力。

通过以上分析,可以从源码和优化角度全面理解 Spark Shuffle 的设计与工作原理。

相关推荐
大圣数据星球2 小时前
Fluss 写入数据湖实战
大数据·设计模式·flink
suweijie7682 小时前
SpringCloudAlibaba | Sentinel从基础到进阶
java·大数据·sentinel
Data跳动7 小时前
Spark内存都消耗在哪里了?
大数据·分布式·spark
woshiabc1118 小时前
windows安装Elasticsearch及增删改查操作
大数据·elasticsearch·搜索引擎
lucky_syq9 小时前
Saprk和Flink的区别
大数据·flink
lucky_syq9 小时前
流式处理,为什么Flink比Spark Streaming好?
大数据·flink·spark
袋鼠云数栈9 小时前
深入浅出Flink CEP丨如何通过Flink SQL作业动态更新Flink CEP作业
大数据
Java程序之猿9 小时前
微服务分布式(一、项目初始化)
分布式·微服务·架构
来一杯龙舌兰9 小时前
【RabbitMQ】RabbitMQ保证消息不丢失的N种策略的思想总结
分布式·rabbitmq·ruby·持久化·ack·消息确认
小白学大数据10 小时前
如何使用Selenium处理JavaScript动态加载的内容?
大数据·javascript·爬虫·selenium·测试工具