spark小任务

复制代码
import org.apache.spark.{Partitioner, SparkConf, SparkContext}

object PartitionCustom {
  // 分区器决定哪一个元素进入某一个分区

  // 目标: 把10个分区器,偶数分在第一个分区,奇数分在第二个分区
  // 自定义分区器
  // 1. 创建一个类继承Partitioner
  // 2. 重写两个方法
  // 3. 在创建RDD的时候,partitionBy方法 指定分区器

  // 创建一个类继承Partitioner
  class MyPartitioner extends Partitioner{
     override def numPartitions: Int = 2 // 两个分区,编号就是:0,1

    // key - value
     override def getPartition(key: Any): Int = {
        if(key.asInstanceOf[Int] % 2 == 0){
          0
        }else{
          1
        }
     }
  }
  def main(args: Array[String]): Unit = {
    // 创建SparkContext
    val conf = new SparkConf().setAppName("PartitionCustom").setMaster("local[*]")
    val sc = new SparkContext(conf)

    // 初始数据
    val rdd = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))

    //val rdd = sc.parallelize(List(  (1,1),  (2,2))
    // 自定义分区器使用的前提:数据是key-value类型
    val rdd1 = rdd.map(num =>(num,num))

    // 使用自定义分区器
    val rdd2 = rdd1.partitionBy(new MyPartitioner)

    // 在分区完成之后的基础上,只保留key
    val rdd3 = rdd2.map(t => t._1)

    rdd3.saveAsTextFile("output6")
  }
}
相关推荐
SuperHeroWu77 小时前
【HarmonyOS 6】UIAbility跨设备连接详解(分布式软总线运用)
分布式·华为·harmonyos·鸿蒙·连接·分布式协同·跨设备链接
杜子不疼.7 小时前
【探索实战】从0到1打造分布式云原生平台:Kurator全栈实践指南
分布式·云原生
东哥说-MES|从入门到精通8 小时前
数字化部分内容 | 十四五年规划和2035年远景目标纲要(新华社正式版)
大数据·人工智能·数字化转型·mes·数字化工厂·2035·十四五规划
南飞测绘视界8 小时前
上市公司绿色专利申请、授权数据(1999-2024年)
大数据·专利·上市公司
一个天蝎座 白勺 程序猿9 小时前
KingbaseES在政务领域的应用实践——武汉人社大数据平台“数字化服务新模式”
大数据·数据库·政务·kingbasees·金仓数据库
pale_moonlight10 小时前
十、 Scala 应用实践 (上)
大数据·开发语言·scala
m***l11510 小时前
集成RabbitMQ+MQ常用操作
分布式·rabbitmq
第二只羽毛11 小时前
遵守robots协议的友好爬虫
大数据·爬虫·python·算法·网络爬虫
Elastic 中国社区官方博客11 小时前
使用 A2A 协议和 MCP 在 Elasticsearch 中创建一个 LLM agent 新闻室:第二部分
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
安达发公司11 小时前
安达发|告别手工排产!车间排产软件成为中央厨房的“最强大脑”
大数据·人工智能·aps高级排程·aps排程软件·安达发aps·车间排产软件