大数据Spark（六十四）：Spark算子介绍

文章目录

Spark算子介绍

在 Apache Spark 中，算子（Operator）是对分布式数据集（RDD）进行操作的函数或方法。根据功能和特性，Spark 的算子主要分为三大类：转换算子（Transformation）、行动算子（Action）和持久化算子（Persistence）。Transformation算子用于从一个 RDD 转换生成另一个 RDD，具有惰性特性；Action算子用于触发实际计算，将结果返回给Driver或写入外部存储；持久化算子用于将 RDD 的数据缓存或持久化，以提高重复计算的效率。

编写Spark代码流程如下：

创建SparkConf对象，Spark Application中必须通过该对象设置Application Name、运行模式，还可以设置Spark applicatiion的资源需求。
创建SparkContext对象，将SparkConf作为参数传入SparkContext对象。
基于SparkContext创建一个RDD，使用Transformation算子对RDD进行转换处理。
Spark Application中要有Action类算子来触发Transformation类算子执行。
最终，SparkContext.close()/SparkContext.stop()关闭SparkContext对象。

一、Transformation-转换算子

Transformation算子对现有的RDD进行操作，生成新的 RDD，这些操作是惰性的（延迟执行），只有在遇到Action算子时才会被执行。下面对常用的Transformation类算子进行介绍。

1.map

将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素，特点：输入一条，输出一条。这里不再给出示例。

2.flatMap

先map后flat。与map类似，每个输入项可以映射为0到多个输出项。这里不再给出示例。

3.reduceByKey

只能作用在K,V格式的RDD上，使用指定的函数对相同Key的Value进行聚合，返回K,V格式的RDD。

4.groupBy

groupBy算子可以对RDD中数据按照指定的规则进行分组。

如下示例将RDD数据按照奇数和偶数进行分组。GroupBy返回Tuple<K,Iterable>，K表示分组的key，V表示该组中的数据。

Java代码：

java 复制代码

SparkConf conf = new SparkConf().setMaster("local").setAppName("CustomPartitionerTest");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10));

JavaPairRDD<Integer, Iterable<Integer>> result = rdd.groupBy(new Function<Integer, Integer>() {
    @Override
    public Integer call(Integer one) throws Exception {
        return one % 2;
    }
});

result.foreach(new VoidFunction<Tuple2<Integer, Iterable<Integer>>>() {
    @Override
    public void call(Tuple2<Integer, Iterable<Integer>> integerIterableTuple2) throws Exception {
        System.out.println(integerIterableTuple2);
    }
});

sc.stop()

Scala代码：

Scala 复制代码

val conf = new SparkConf().setMaster("local").setAppName("filter")
val sc = new SparkContext(conf)
val rdd: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))
val result: RDD[(Int, Iterable[Int])] = rdd.groupBy(one => one % 2)
result.foreach(println)
sc.stop()

📢博客主页：https://lansonli.blog.csdn.net
📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！
📢本文由 Lansonli 原创，首发于 CSDN博客🙉
📢停下休息的时候不要忘了别人还在奔跑，希望大家抓紧时间学习，全力奔赴更美好的生活✨