Spark 中的 Shuffle 是分布式数据交换的核心流程,从源码角度分析 Shuffle 的执行路径

Spark 中的 Shuffle 是分布式数据交换的核心流程,涉及多个组件的协同工作。为了深入理解其处理过程,我们可以从源码角度分析 Shuffle 的执行路径,分为 Shuffle WriteShuffle Read 两个阶段。


1. Shuffle Write 阶段

Shuffle Write 的主要任务是将 Mapper 的数据按照分区规则(如 HashPartitioner)分割、排序并写入磁盘。

1.1 数据分区与序列化
  • 入口方法

    Mapper 阶段的 compute() 方法中调用了 ShuffleDependency 的相关逻辑。

    scala 复制代码
    val partition = partitioner.getPartition(key)

    数据会根据 partitioner(如 HashPartitioner 或自定义分区器)计算目标分区。

  • 序列化

    每条数据会通过 serializerInstance.serialize() 进行序列化,将数据转换成字节流以便后续写入。

1.2 数据排序与溢写(Spill)
  • 排序

    SortShuffleWriter 中,数据会被放入内存中的 PartitionedAppendOnlyMapPartitionedPairBuffer 进行排序(根据键的自然顺序或用户指定的比较器)。

  • 溢写到磁盘

    当内存不足时,会触发溢写(spill)。溢写的数据会写到多个磁盘文件,每个文件对应多个分区。

1.3 合并分区数据
  • 归并操作
    在溢写文件较多时,Spark 会对这些临时文件执行归并排序,生成最终的分区文件。
    • 对于 BypassMergeSortShuffleWriter,会直接将分区文件写出,无需排序。
    • 对于 SortShuffleWriter,归并排序确保每个分区的数据有序。
1.4 写出索引文件
  • 最后,Shuffle Write 阶段会生成一个索引文件(shuffleId_0.index)和数据文件(shuffleId_0.data)。
    • 索引文件:记录每个分区在数据文件中的偏移量,用于快速定位分区数据。
    • 数据文件:存储分区后的数据。

2. Shuffle Read 阶段

Shuffle Read 阶段由 Reducer 执行,任务是从分布式存储中拉取相应分区的数据。

2.1 拉取数据
  • 入口方法

    Reducer 的 compute() 方法会调用 BlockStoreShuffleFetcher.fetch()MapOutputTracker 获取每个分区的数据位置。

    scala 复制代码
    val blocksByAddress = mapOutputTracker.getMapSizesByExecutorId(shuffleId, reduceId)
  • 数据传输

    数据通过 Spark 的 BlockManager 拉取。如果目标数据在同一节点上,可以通过本地文件系统读取;如果在远程节点上,则通过 Netty 或 HTTP 传输。

2.2 数据解压与反序列化
  • 解压

    如果数据经过压缩(如 LZ4、Snappy),在读取时会被解压缩。

    • 压缩相关配置:spark.shuffle.compress=truespark.shuffle.spill.compress=true
  • 反序列化

    使用与 Shuffle Write 相同的序列化器(如 Kryo 或 JavaSerializer)将字节流转换回对象。

2.3 数据聚合与处理
  • 拉取到的数据会根据 Reducer 的逻辑(如 reduceByKeyaggregateByKey)进行聚合或排序处理。

3. 关键组件的协作关系

  • ShuffleManager

    决定使用哪种类型的 Shuffle,如 SortShuffleManagerHashShuffleManager

  • ShuffleWriter

    负责数据写入磁盘,主要实现类:

    • BypassMergeSortShuffleWriter
    • SortShuffleWriter
  • ShuffleReader

    负责从不同节点拉取数据,主要实现类:

    • BlockStoreShuffleReader
  • MapOutputTracker

    负责跟踪每个 Mapper 的输出分区位置,Reducer 会通过它获取分区数据的位置。


4. Shuffle 设计的优缺点

特性 优点 缺点
分区文件索引 减少数据读取时的随机 I/O 开销 索引管理复杂度增加
排序优化 提高数据局部性和读取效率 需要更多的 CPU 和内存资源
溢写与归并 避免内存溢出,支持大规模数据处理 增加磁盘 I/O 开销
数据压缩 减少网络传输和存储空间 压缩和解压缩会增加 CPU 开销

源码路径及关键类

  1. Shuffle Write

    • SortShuffleWriterorg.apache.spark.shuffle.sort.SortShuffleWriter
    • BypassMergeSortShuffleWriterorg.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter
  2. Shuffle Read

    • BlockStoreShuffleReaderorg.apache.spark.shuffle.BlockStoreShuffleReader
  3. Shuffle 依赖与管理

    • ShuffleDependencyorg.apache.spark.shuffle.ShuffleDependency
    • ShuffleManagerorg.apache.spark.shuffle.ShuffleManager

5. 性能优化方向

  1. 调优分区数

    • 合理配置 spark.sql.shuffle.partitionsspark.default.parallelism,避免分区数过多或过少。
  2. 压缩与序列化

    • 优化序列化器(推荐使用 Kryo),并启用压缩来减少网络开销。
  3. 内存管理

    • 调整 spark.memory.fraction,确保 Shuffle 缓存有足够的内存。
  4. 使用外部 Shuffle 服务

    • 启用 ExternalShuffleService,减轻 Executor 的内存和磁盘压力。

通过以上分析,可以从源码和优化角度全面理解 Spark Shuffle 的设计与工作原理。

相关推荐
霑潇雨1 小时前
Flink转换算子——filter
java·大数据·flink
萤丰信息1 小时前
智慧园区:以技术赋能,构筑安全便捷的现代化生态空间
大数据·人工智能·科技·安全·智慧城市·智慧园区
weixin199701080161 小时前
B2Bitem_get - 获取商标详情接口对接全攻略:从入门到精通
java·大数据·算法
freepopo1 小时前
天津商业空间设计:本地团队的美学落地方案 [特殊字符]
大数据·人工智能·python
数琨创享TQMS质量数智化2 小时前
国有大型交通运输设备制造集团QMS质量管理平台案例
大数据·人工智能·物联网
yhdata2 小时前
绿色能源新动力:硫酸亚铁助力锂电池产业,年复合增长率攀升至14.8%
大数据·人工智能
難釋懷2 小时前
分布式锁基本原理和实现方式对比
分布式
是垚不是土2 小时前
OpenTelemetry+Jaeger+ES:分布式链路追踪实战部署
大数据·linux·运维·分布式·elasticsearch·全文检索
八月瓜科技2 小时前
AI侵权频发:国内判例定边界,国际判决敲警钟
大数据·人工智能·科技·深度学习·机器人
福赖3 小时前
《微服务即使通讯中ES的作用》
大数据·elasticsearch