spark小任务

复制代码
import org.apache.spark.{Partitioner, SparkConf, SparkContext}

object PartitionCustom {
  // 分区器决定哪一个元素进入某一个分区

  // 目标: 把10个分区器,偶数分在第一个分区,奇数分在第二个分区
  // 自定义分区器
  // 1. 创建一个类继承Partitioner
  // 2. 重写两个方法
  // 3. 在创建RDD的时候,partitionBy方法 指定分区器

  // 创建一个类继承Partitioner
  class MyPartitioner extends Partitioner{
     override def numPartitions: Int = 2 // 两个分区,编号就是:0,1

    // key - value
     override def getPartition(key: Any): Int = {
        if(key.asInstanceOf[Int] % 2 == 0){
          0
        }else{
          1
        }
     }
  }
  def main(args: Array[String]): Unit = {
    // 创建SparkContext
    val conf = new SparkConf().setAppName("PartitionCustom").setMaster("local[*]")
    val sc = new SparkContext(conf)

    // 初始数据
    val rdd = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))

    //val rdd = sc.parallelize(List(  (1,1),  (2,2))
    // 自定义分区器使用的前提:数据是key-value类型
    val rdd1 = rdd.map(num =>(num,num))

    // 使用自定义分区器
    val rdd2 = rdd1.partitionBy(new MyPartitioner)

    // 在分区完成之后的基础上,只保留key
    val rdd3 = rdd2.map(t => t._1)

    rdd3.saveAsTextFile("output6")
  }
}
相关推荐
2501_93367079几秒前
大数据在校实训项目一般做什么类型内容
大数据
monsion13 分钟前
Loop Engineering:你不再 prompt agent,而是设计 prompt agent 的系统
大数据·人工智能·prompt
保卫大狮兄1 小时前
什么是WBS项目管理?WBS有哪些核心功能?
大数据·人工智能
标书畅畅行1 小时前
钛投标:全流程企业级AI标书解决方案,重构投标数字化生产力
大数据·人工智能
2601_954971131 小时前
2026年大数据专业证书报考指南
大数据
小二·2 小时前
Redis 7 分布式缓存架构实战
redis·分布式·缓存
JZC_xiaozhong2 小时前
赛狐ERP订单如何自动同步到金蝶云星空?从发货到应收单生成,全程实时
大数据·数据挖掘·数据分析·数据集成与应用集成·赛狐erp集成·金蝶系统集成·系统应用对接
Tongpao_SSDHDD2 小时前
希捷酷鹰ST6000VX008实测解析:中小安防监控高性价比存储方案
大数据·数据库·人工智能
jkyy20142 小时前
车载健康座舱成新赛道?汽车健康数字化重塑出行新价值
大数据·人工智能·汽车·健康医疗
zhuhai_xigedian2 小时前
源网荷储一体化 vs 传统供用电模式:差异、优势与转型路径
大数据·人工智能·分布式·系统架构·能源