详解 Spark 核心编程之 RDD 分区器

一、RDD 分区器简介

  • Spark 分区器的父类是 Partitioner 抽象类
  • 分区器直接决定了 RDD 中分区的个数、RDD 中每条数据经过 Shuffle 后进入哪个分区,进而决定了 Reduce 的个数
  • 只有 Key-Value 类型的 RDD 才有分区器,非 Key-Value 类型的 RDD 分区的值是 None
  • 每个 RDD 的分区索引的范围:0~(numPartitions - 1)

二、HashPartitioner

默认的分区器,对于给定的 key,计算其 hashCode 并除以分区个数取余获得数据所在的分区索引

scala 复制代码
class HashPartitioner(partitions: Int) extends Partitioner {
    require(partitions >= 0, s"Number of partitions ($partitions) cannot be negative.")
    
    def numPartitions: Int = partitions
    
    def getPartition(key: Any): Int = key match {
    	case null => 0
    	case _ => Utils.nonNegativeMod(key.hashCode, numPartitions)
    }
    
    override def equals(other: Any): Boolean = other match {
    	case h: HashPartitioner => h.numPartitions == numPartitions
    	case _ => false
    }
    
    override def hashCode: Int = numPartitions
}

三、RangePartitioner

将一定范围内的数据映射到一个分区中,尽量保证每个分区数据均匀,而且分区间有序

scala 复制代码
class RangePartitioner[K: Ordering: ClassTag, V](partitions: Int, rdd: RDD[_ <: Product2[K, V]], private var ascending: Boolean = true) extends Partitioner {
    // We allow partitions = 0, which happens when sorting an empty RDD under the default settings.
    require(partitions >= 0, s"Number of partitions cannot be negative but found 
    $partitions.")
    
    private var ordering = implicitly[Ordering[K]]
    // An array of upper bounds for the first (partitions - 1) partitions
    private var rangeBounds: Array[K] = {
    	...
    }
    
    def numPartitions: Int = rangeBounds.length + 1
    
    private var binarySearch: ((Array[K], K) => Int) =  CollectionsUtils.makeBinarySearch[K]
    
    def getPartition(key: Any): Int = {
        val k = key.asInstanceOf[K]
        var partition = 0
        if (rangeBounds.length <= 128) {
            // If we have less than 128 partitions naive search
            while(partition < rangeBounds.length && ordering.gt(k, rangeBounds(partition))) {
                partition += 1
            }
        } else {
            // Determine which binary search method to use only once.
            partition = binarySearch(rangeBounds, k)
            // binarySearch either returns the match location or -[insertion point]-1
            if (partition < 0) {
            	partition = -partition-1
            }
            
            if (partition > rangeBounds.length) {
                partition = rangeBounds.length
            }
    	}
        
        if (ascending) {
            partition
        } else {
            rangeBounds.length - partition
        }
    }
    
    override def equals(other: Any): Boolean = other match {
    	...
    }
    
    override def hashCode(): Int = {
    	...
    }
    
    @throws(classOf[IOException])
    private def writeObject(out: ObjectOutputStream): Unit =  Utils.tryOrIOException 
    {
    	...
    }
    
    @throws(classOf[IOException])
    private def readObject(in: ObjectInputStream): Unit = Utils.tryOrIOException {
    	...
    }
}

四、自定义 Partitioner

scala 复制代码
/**
	1.继承 Partitioner 抽象类
	2.重写 numPartitions: Int 和 getPartition(key: Any): Int 方法
*/
object TestRDDPartitioner {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setMaster("local[*]").setAppName("partition")
    	val sc = new SparkContext(conf)
        
        val rdd = sc.makeRDD(List(
        	("nba", "xxxxxxxxxxx"),
            ("cba", "xxxxxxxxxxx"),
            ("nba", "xxxxxxxxxxx"),
            ("ncaa", "xxxxxxxxxxx"),
            ("cuba", "xxxxxxxxxxx")
        ))
        
        val partRdd = rdd.partitionBy(new MyPartitioner)
        
        partRdd.saveAsTextFile("output")
        
    }
}

class MyPartitioner extends Partitioner {
    // 重写返回分区数量的方法
    override def numPartitions: Int = 3
    
    // 重写根据数据的key返回数据所在的分区索引的方法
    override def getPartition(key: Any): Int = {
        key match {
            case "nba" => 0
            case "cba" => 1
            case _ => 2
        }
    }
    
}
相关推荐
武子康3 小时前
大数据-239 离线数仓 - 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载
大数据·后端·apache hive
字节跳动数据平台1 天前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
得物技术1 天前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
武子康1 天前
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
大数据·后端·apache hive
武子康2 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天2 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康4 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
肌肉娃子5 天前
20260227.spark.Spark 性能刺客:千万别在 for 循环里写 withColumn
spark
初次攀爬者5 天前
ZooKeeper 实现分布式锁的两种方式
分布式·后端·zookeeper
武子康5 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive