Spark---RDD(双值类型转换算子)

文章目录

  • 1.RDD双值类型算子
      • [1.1 intersection](#1.1 intersection)
      • [1.2 union](#1.2 union)
      • [1.3 subtract](#1.3 subtract)
      • [1.4 zip](#1.4 zip)

1.RDD双值类型算子

RDD双Value算子就是对两个RDD进行操作或行动,生成一个新的RDD。

1.1 intersection

对源 RDD 和参数 RDD 求交集后返回一个新的 RDD

函数定义:

def intersection(other: RDD[T]): RDD[T]

复制代码
    //建立与Spark框架的连接
    val rdd = new SparkConf().setMaster("local[*]").setAppName("RDD") //配置文件
    val sparkRdd = new SparkContext(rdd) //读取配置文件

    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))
    val data2: RDD[Int] = sparkRdd.makeRDD(List(3, 4, 5, 6))
    val dataRdd = data1.intersection(data2)
    dataRdd.collect().foreach(println)

    sparkRdd.stop(); //关闭连接

运行结果:

1.2 union

对源 RDD 和参数 RDD 求并集后返回一个新的 RDD

函数定义:

def union(other: RDD[T]): RDD[T]

复制代码
    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))
    val data2: RDD[Int] = sparkRdd.makeRDD(List(3, 4, 5, 6))
    val dataRdd = data1.union(data2)
    dataRdd.collect().foreach(println)

1.3 subtract

以一个 RDD 元素为主,去除两个 RDD 中重复元素,将其他元素保留下来。求差集

函数定义:

def subtract(other: RDD[T]): RDD[T]

复制代码
    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))
    val data2: RDD[Int] = sparkRdd.makeRDD(List(3, 4, 5, 6))
    val dataRdd = data1.subtract(data2)
    dataRdd.collect().foreach(println)

1.4 zip

将两个 RDD 中的元素,以键值对的形式进行合并。其中,键值对中的 Key 为第 1 个 RDD中的元素,Value 为第 2 个 RDD 中的相同位置的元素。

函数定义:

def zip[U: ClassTag](other: RDD[U]): RDD[(T, U)]

复制代码
    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))
    val data2: RDD[Int] = sparkRdd.makeRDD(List(5,6,7,8))
    val dataRdd = data1.zip(data2)
    dataRdd.collect().foreach(println)


注意:如果两个RDD类型不一样,则会报错

复制代码
    val data1: RDD[Int] = sparkRdd.makeRDD(List(1, 2, 3, 4))
    val data2: RDD[Int] = sparkRdd.makeRDD(List("hello", "scala", "hello", "Java"))
    val dataRdd = data1.zip(data2)
    dataRdd.collect().foreach(println)
相关推荐
A达峰绮6 分钟前
AI时代的行业重构:机遇、挑战与生存法则
大数据·人工智能·经验分享·ai·推荐算法
小李飞刀李寻欢16 分钟前
使用kubeadm部署Kubernetes(k8s)集群的步骤
linux·服务器·ubuntu·kubernetes·k8s
摇滚侠21 分钟前
elasticSearch是什么,如何使用,有什么用
大数据·elasticsearch·搜索引擎
运维成长记28 分钟前
阿里云实践创建实例步骤
linux·运维·服务器·阿里云·云计算
viperrrrrrrrrr738 分钟前
大数据学习(137)-大数据组件运行时角色
大数据·hive·学习·flink·spark
Kusunoki_D42 分钟前
Python 实现 Web 静态服务器(HTTP 协议)
服务器·前端·python
THe CHallEnge of THe BrAve42 分钟前
Linux检验库是否安装成功
linux·运维·服务器
Leo.yuan1 小时前
数据挖掘是什么?数据挖掘技术有哪些?
大数据·数据库·人工智能·数据挖掘·数据分析
晓北斗NorSnow1 小时前
没有宝塔面板的服务器上的WordPress网站打包下载到本地?
运维·服务器
Mikhail_G2 小时前
数据分析入门初解
大数据·运维·开发语言·python·数据分析