Spark---RDD(双值类型转换算子)

文章目录

  • 1.RDD双值类型算子
      • [1.1 intersection](#1.1 intersection)
      • [1.2 union](#1.2 union)
      • [1.3 subtract](#1.3 subtract)
      • [1.4 zip](#1.4 zip)

1.RDD双值类型算子

RDD双Value算子就是对两个RDD进行操作或行动,生成一个新的RDD。

1.1 intersection

对源 RDD 和参数 RDD 求交集后返回一个新的 RDD

函数定义:

def intersection(other: RDDT): RDDT

复制代码
    //建立与Spark框架的连接
    val rdd = new SparkConf().setMaster("local[*]").setAppName("RDD") //配置文件
    val sparkRdd = new SparkContext(rdd) //读取配置文件

    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))
    val data2: RDD[Int] = sparkRdd.makeRDD(List(3, 4, 5, 6))
    val dataRdd = data1.intersection(data2)
    dataRdd.collect().foreach(println)

    sparkRdd.stop(); //关闭连接

运行结果:

1.2 union

对源 RDD 和参数 RDD 求并集后返回一个新的 RDD

函数定义:

def union(other: RDDT): RDDT

复制代码
    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))
    val data2: RDD[Int] = sparkRdd.makeRDD(List(3, 4, 5, 6))
    val dataRdd = data1.union(data2)
    dataRdd.collect().foreach(println)

1.3 subtract

以一个 RDD 元素为主,去除两个 RDD 中重复元素,将其他元素保留下来。求差集

函数定义:

def subtract(other: RDDT): RDDT

复制代码
    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))
    val data2: RDD[Int] = sparkRdd.makeRDD(List(3, 4, 5, 6))
    val dataRdd = data1.subtract(data2)
    dataRdd.collect().foreach(println)

1.4 zip

将两个 RDD 中的元素,以键值对的形式进行合并。其中,键值对中的 Key 为第 1 个 RDD中的元素,Value 为第 2 个 RDD 中的相同位置的元素。

函数定义:

def zipU: ClassTag(other: RDDU): RDD(T, U)

复制代码
    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))
    val data2: RDD[Int] = sparkRdd.makeRDD(List(5,6,7,8))
    val dataRdd = data1.zip(data2)
    dataRdd.collect().foreach(println)


注意:如果两个RDD类型不一样,则会报错

复制代码
    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))
    val data2: RDD[Int] = sparkRdd.makeRDD(List("hello", "scala", "hello", "Java"))
    val dataRdd = data1.zip(data2)
    dataRdd.collect().foreach(println)
相关推荐
智慧景区与市集主理人3 小时前
巨有科技会员积分系统|深耕私域存量,破解景区复购增收难题
大数据·科技
稳联技术老娜3 小时前
DeviceNet主站怎么连接西门子PLC,Profinet网关配置手册(那智机器人)
服务器·网络·数据库
9分钟带帽4 小时前
linux_系统开机自动执行shell脚本
linux·服务器
Litluecat5 小时前
2026年6月1日科技热点新闻
大数据·人工智能·科技·推荐·热点·新闻·每日
消失在人海中5 小时前
oracle 数据库多表关联查询
服务器·数据库·oracle
志栋智能5 小时前
AI驱动无代码:降低巡检超自动化的门槛
大数据·运维·网络·人工智能·自动化
代码匠心6 小时前
从零开始学Flink:Flink CDC 入门
大数据·数据仓库·flink
Irene19916 小时前
基于现有的大数据开发实验环境,深入理解数据完整生命周期,工具配合使用,全流程练习
大数据·工具·开发环境·项目练习
嵌入式小能手6 小时前
飞凌嵌入式ElfBoard-进程间的通信之命名管道
linux·服务器·算法
Hefei GlobefishAI6 小时前
无人零售智能柜适合哪些场景?
大数据·零售