import org.apache.spark.{Partitioner, SparkConf, SparkContext}
object PartitionCustom {
// 分区器决定哪一个元素进入某一个分区
// 目标: 把10个分区器,偶数分在第一个分区,奇数分在第二个分区
// 自定义分区器
// 1. 创建一个类继承Partitioner
// 2. 重写两个方法
// 3. 在创建RDD的时候,partitionBy方法 指定分区器
// 创建一个类继承Partitioner
class MyPartitioner extends Partitioner{
override def numPartitions: Int = 2 // 两个分区,编号就是:0,1
// key - value
override def getPartition(key: Any): Int = {
if(key.asInstanceOf[Int] % 2 == 0){
0
}else{
1
}
}
}
def main(args: Array[String]): Unit = {
// 创建SparkContext
val conf = new SparkConf().setAppName("PartitionCustom").setMaster("local[*]")
val sc = new SparkContext(conf)
// 初始数据
val rdd = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))
//val rdd = sc.parallelize(List( (1,1), (2,2))
// 自定义分区器使用的前提:数据是key-value类型
val rdd1 = rdd.map(num =>(num,num))
// 使用自定义分区器
val rdd2 = rdd1.partitionBy(new MyPartitioner)
// 在分区完成之后的基础上,只保留key
val rdd3 = rdd2.map(t => t._1)
rdd3.saveAsTextFile("output6")
}
}
spark小任务
只因只因爆2025-05-15 18:20
相关推荐
Robot侠2 小时前
极简LLM入门指南4技术钱3 小时前
vue3解决大数据加载页面卡顿问题福客AI智能客服5 小时前
从被动响应到主动赋能:家具行业客服机器人的革新路径小五传输6 小时前
隔离网闸的作用是什么?新型网闸如何构筑“数字护城河”?jkyy20147 小时前
AI健康医疗开放平台:企业健康业务的“新基建”蚁巡信息巡查系统7 小时前
政府网站与政务新媒体检查指标抽查通报如何面对脸大是真的好~7 小时前
分布式锁-基于redis实现分布式锁(不推荐)- 改进利用LUA脚本(不推荐)前面都是原理 - Redisson分布式锁视界先声7 小时前
2025年GEO自动化闭环构建实践:监测工具选型与多平台反馈机制工程分享百***24378 小时前
GPT5.1 vs Claude-Opus-4.5 全维度对比及快速接入实战liuniansilence8 小时前
🚀 高并发场景下的救星:BullMQ如何实现智能流量削峰填谷