Spark 读取 HDFS 文件时 RDD 分区数的确定原理与源码分析

在 Spark 中,RDD 的分区数对于并行计算的效率非常重要,SparkCore 读取 HDFS 文件时 RDD 分区数的确定受多方面因素的影响。本文将从源码的角度分析 Spark 如何确定 RDD 分区数,并通过代码示例和案例帮助理解分区策略。

Spark RDD 分区数确定的源码解析

Spark 读取 HDFS 文件时,分区数主要由 文件块大小 (block size)、分片大小 (split size)、期望分区数(spark.default.parallelism)等参数共同决定。

1. splitSize 的确定

Spark 读取 HDFS 文件时,会根据文件的总大小和分区期望数来计算每个分区的大小(splitSize)。源码如下:

scala 复制代码
val goalSize = totalSize / math.max(minPartitions, 1)
val splitSize = Math.max(minSize, Math.min(goalSize, blockSize))
  • goalSize :每个分区的目标大小,由总文件大小除以分区数(minPartitions)计算得出。
  • splitSize :最终的分区大小,取 goalSize 与 HDFS blockSize 之间的较小值,确保每个分区数据量不会超过一个 HDFS 块的大小。
2. 代码示例:分区数计算

假设一个文件的大小为 1 GB,块大小为 128 MB,期望分区数(spark.default.parallelism)为 8。则每个分区的目标大小 goalSize 为 128 MB(1 GB / 8),最终的 splitSize 为 128 MB(和块大小相同)。这时文件会被分为 8 个分区。

3. 示例代码:RDD 分区数确定
scala 复制代码
import org.apache.spark.{SparkConf, SparkContext}

object HDFSPartitionExample {
  def main(args: Array[String]): Unit = {
    // 创建 SparkContext
    val conf = new SparkConf().setAppName("HDFS Partition Example").setMaster("local")
    val sc = new SparkContext(conf)

    // 读取 HDFS 文件
    val filePath = "hdfs://path/to/file"
    val rdd = sc.textFile(filePath, minPartitions = 8) // 设置最小分区数为 8
    println(s"分区数: ${rdd.getNumPartitions}")

    // 查看每个分区的数据量
    val partitionSizes = rdd.mapPartitionsWithIndex { (idx, iter) =>
      Iterator((idx, iter.size))
    }.collect()

    partitionSizes.foreach { case (index, size) =>
      println(s"分区 $index: 数据量 $size 条记录")
    }

    sc.stop()
  }
}
4. 实验结果分析
  • 1 GB 文件,128 MB 块大小,8 个期望分区:生成 8 个分区,每个分区 128 MB。
  • 1 GB 文件,64 MB 块大小,10 个期望分区 :由于 goalSize 为 100 MB,实际每个分区大小取 64 MB(块大小)。生成 16 个分区,每个分区 64 MB。
  • 1 GB 文件,256 MB 块大小,4 个期望分区goalSize 为 250 MB,splitSize 为 250 MB,生成 4 个分区,每个分区 250 MB。

总结

  1. Spark 通过 goalSizeblockSize 来平衡分区数量与块大小。
  2. 分区数会随着文件大小、块大小、期望分区数等参数变化。
  3. 分区数设定不合理会影响性能,例如分区数过多会导致任务调度开销增加,分区数过少则可能导致计算资源未充分利用。
相关推荐
肌肉娃子11 小时前
20260227.spark.Spark 性能刺客:千万别在 for 循环里写 withColumn
spark
B站计算机毕业设计超人1 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城1 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark
Asher05092 天前
Spark核心基础与架构全解析
大数据·架构·spark
江畔何人初3 天前
hadoop中HDFS框架、YARN框架各组件职责与对比
大数据·hadoop·hdfs
Francek Chen4 天前
【大数据存储与管理】分布式文件系统HDFS:05 HDFS存储原理
大数据·hadoop·分布式·hdfs
FYKJ_20105 天前
springboot大学校园论坛管理系统--附源码42669
java·javascript·spring boot·python·spark·django·php
张二森6 天前
分布式存储的战争(一)大数据的基石-HDFS的崛起
hdfs
鸿乃江边鸟8 天前
Spark Datafusion Comet 向量化Rust Native--Native算子ScanExec以及涉及到的Selection Vectors
大数据·rust·spark·arrow