spark小任务

复制代码
import org.apache.spark.{Partitioner, SparkConf, SparkContext}

object PartitionCustom {
  // 分区器决定哪一个元素进入某一个分区

  // 目标: 把10个分区器,偶数分在第一个分区,奇数分在第二个分区
  // 自定义分区器
  // 1. 创建一个类继承Partitioner
  // 2. 重写两个方法
  // 3. 在创建RDD的时候,partitionBy方法 指定分区器

  // 创建一个类继承Partitioner
  class MyPartitioner extends Partitioner{
     override def numPartitions: Int = 2 // 两个分区,编号就是:0,1

    // key - value
     override def getPartition(key: Any): Int = {
        if(key.asInstanceOf[Int] % 2 == 0){
          0
        }else{
          1
        }
     }
  }
  def main(args: Array[String]): Unit = {
    // 创建SparkContext
    val conf = new SparkConf().setAppName("PartitionCustom").setMaster("local[*]")
    val sc = new SparkContext(conf)

    // 初始数据
    val rdd = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))

    //val rdd = sc.parallelize(List(  (1,1),  (2,2))
    // 自定义分区器使用的前提:数据是key-value类型
    val rdd1 = rdd.map(num =>(num,num))

    // 使用自定义分区器
    val rdd2 = rdd1.partitionBy(new MyPartitioner)

    // 在分区完成之后的基础上,只保留key
    val rdd3 = rdd2.map(t => t._1)

    rdd3.saveAsTextFile("output6")
  }
}
相关推荐
QYResearch1 小时前
导航浮标灯市场现状及前景分析
大数据
QYResearch2 小时前
2025年全球半导体用电子湿化学品行业总体规模、主要企业国内外市场占有率及排名
大数据
搞科研的小刘选手2 小时前
【通信&网络安全主题】第六届计算机通信与网络安全国际学术会议(CCNS 2025)
大数据·人工智能·网络安全·vr·通信工程·网络技术·计算机工程
程序员小凯2 小时前
Spring MVC 分布式事务与数据一致性教程
分布式·spring·mvc
Yeats_Liao2 小时前
Go语言技术与应用(二):分布式架构设计解析
开发语言·分布式·golang
2301_768350235 小时前
RabbitMq快速入门程序
分布式·rabbitmq·ruby
阿里云大数据AI技术5 小时前
云栖实录 | 通义实验室基于MaxCompute进行大模型数据管理及处理
大数据·人工智能
yumgpkpm6 小时前
CMP (类ClouderaCDP7.3(404次编译) )华为鲲鹏Aarch64(ARM)信创环境多个mysql数据库汇聚的操作指南
大数据·hive·hadoop·zookeeper·big data·cloudera
CryptoPP7 小时前
获取越南股票市场列表(包含VN30成分股)实战指南
大数据·服务器·数据库·区块链
跨境小新7 小时前
TG弹出“只能给双向联系人发送消息”的飞机双向限制怎么办?
大数据