spark小任务

复制代码
import org.apache.spark.{Partitioner, SparkConf, SparkContext}

object PartitionCustom {
  // 分区器决定哪一个元素进入某一个分区

  // 目标: 把10个分区器,偶数分在第一个分区,奇数分在第二个分区
  // 自定义分区器
  // 1. 创建一个类继承Partitioner
  // 2. 重写两个方法
  // 3. 在创建RDD的时候,partitionBy方法 指定分区器

  // 创建一个类继承Partitioner
  class MyPartitioner extends Partitioner{
     override def numPartitions: Int = 2 // 两个分区,编号就是:0,1

    // key - value
     override def getPartition(key: Any): Int = {
        if(key.asInstanceOf[Int] % 2 == 0){
          0
        }else{
          1
        }
     }
  }
  def main(args: Array[String]): Unit = {
    // 创建SparkContext
    val conf = new SparkConf().setAppName("PartitionCustom").setMaster("local[*]")
    val sc = new SparkContext(conf)

    // 初始数据
    val rdd = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))

    //val rdd = sc.parallelize(List(  (1,1),  (2,2))
    // 自定义分区器使用的前提:数据是key-value类型
    val rdd1 = rdd.map(num =>(num,num))

    // 使用自定义分区器
    val rdd2 = rdd1.partitionBy(new MyPartitioner)

    // 在分区完成之后的基础上,只保留key
    val rdd3 = rdd2.map(t => t._1)

    rdd3.saveAsTextFile("output6")
  }
}
相关推荐
SelectDB2 小时前
Apache Doris Python UDF:让 SQL 直接调用 Python 生态,支撑 Agent 时代复杂业务逻辑
大数据·数据库·python
ApacheSeaTunnel5 小时前
当多表数据涌入,Apache SeaTunnel 如何巧妙化解主键冲突?
大数据·开源·数据集成·seatunnel·技术分享·数据同步
大大大大晴天3 天前
Hudi Metadata Table 与 Hive Sync (HMS)怎么选?
大数据
手可摘星辰7773 天前
一次线上FlinkCDC异常排查复盘
大数据·flink
大大大大晴天3 天前
Hudi技术内幕:Metadata Table原理与实践
大数据
大大大大晴天4 天前
Hudi技术内幕:深入解析Index索引机制
大数据
阿里云大数据AI技术4 天前
Flink Forward Asia 2026 深圳启幕:Agentic Streaming for AI,开启实时智能新范式
大数据·flink
SelectDB5 天前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc
大大大大晴天8 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB9 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生