Spark处理过程-转换算子

转换算子

转换算子用于对 RDD 进行转换操作,生成一个新的 RDD。转换操作是惰性的,即当调用转换算子时,Spark 并不会立即执行计算,而是记录下操作步骤,直到遇到行动算子时才会触发实际的计算。

从格式和用法上来看,它就是集合对象的方法。

1.map 算子

作用 :对 RDD 中的每个元素应用给定的函数 f,将每个元素转换为另一个元素,最终返回一个新的 RDD。这个函数 f 接收一个输入类型为 T 的元素,返回一个类型为 U 的元素。

格式 :def map[U: ClassTag](f: T => U): RDD[U]

示例代码

java 复制代码
import org.apache.spark.{SparkConf, SparkContext}
object MapExample {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("MapExample").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd = sc.parallelize(Seq(1, 2, 3, 4))
    val newRdd = rdd.map(x => x * 2)
    newRdd.collect().foreach(println)
    sc.stop()
  }
}
2.filter 算子

作用 :筛选出 RDD 中满足函数 f 条件(即 f 函数返回 true)的元素,返回一个新的 RDD,新 RDD 中的元素类型与原 RDD 相同。

格式 :def filter(f: T => Boolean): RDD[T]

示例代码

java 复制代码
import org.apache.spark.{SparkConf, SparkContext}
object FilterExample {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("FilterExample").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd = sc.parallelize(Seq(1, 2, 3, 4))
    val newRdd = rdd.filter(x => x % 2 == 0)
    newRdd.collect().foreach(println)
    sc.stop()
}}
3.flatMap算子

作用 :对 RDD 中的每个元素应用函数 f,函数 f 返回一个可遍历的集合,然后将这些集合中的元素扁平化合并成一个新的 RDD。

格式 :def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U]

java 复制代码
import org.apache.spark.{SparkConf, SparkContext}
object FlatMapExample {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("FlatMapExample").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd = sc.parallelize(Seq("hello world", "spark is great"))
    val newRdd = rdd.flatMap(x => x.split(" "))
    newRdd.collect().foreach(println)
    sc.stop()
  }}
4.reduceByKey 算子

reduceByKey 是 Spark 中用于处理键值对(Key - Value)类型 RDD 的一个重要转换算子。它的核心作用是对具有相同键的所有值进行聚合操作,通过用户提供的聚合函数将这些值合并成一个结果,从而实现数据的归约和统计。例如统计每个键出现的次数、计算每个键对应值的总和、平均值等。

格式

def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

参数说明:

func: (V, V) => V:这是一个二元函数,用于定义如何对相同键的值进行聚合。函数接收两个类型为 V 的值,返回一个类型为 V 的结果。例如,若要对相同键的值进行求和,func 可以是 (x, y) => x + y。

numPartitions: Int(可选):指定结果 RDD 的分区数。如果不提供该参数,将使用默认的分区数。

以下是一个使用 reduceByKey 计算每个单词出现次数的示例:

java 复制代码
import org.apache.spark.{SparkConf, SparkContext}
object ReduceByKeyExample {
  def main(args: Array[String]): Unit = {
    // 创建 SparkConf 对象
    val conf = new SparkConf().setAppName("ReduceByKeyExample").setMaster("local[*]")
    // 创建 SparkContext 对象
    val sc = new SparkContext(conf)

    // 创建一个包含单词的 RDD
    val words = sc.parallelize(List("apple", "banana", "apple", "cherry", "banana", "apple"))
    // 将每个单词映射为 (单词, 1) 的键值对
    val wordPairs = words.map(word => (word, 1))
    // 使用 reduceByKey 计算每个单词的出现次数
    val wordCounts = wordPairs.reduceByKey(_ + _)
    // 输出结果
    wordCounts.collect().foreach(println)
    // 停止 SparkContext
    sc.stop()
  }
}
相关推荐
卷Java2 小时前
智慧停车大屏数据分析与设计文档
java·大数据·人工智能·数据分析
孟意昶2 小时前
Spark专题-第三部分:性能监控与实战优化(1)-认识spark ui
大数据·数据仓库·sql·ui·spark·etl
MoRanzhi12032 小时前
2. Pandas 核心数据结构:Series 与 DataFrame
大数据·数据结构·人工智能·python·数据挖掘·数据分析·pandas
Vahala0623-孔勇2 小时前
Redisson分布式锁源码深度解析:RedLock算法、看门狗机制,以及虚拟线程下的锁重入陷阱与解决
java·开发语言·分布式
经典19922 小时前
Elasticsearch 讲解及 Java 应用实战:从入门到落地
java·大数据·elasticsearch
大叔_爱编程3 小时前
基于Hadoop的美妆产品网络评价的数据采集与分析-django+spider
大数据·hadoop·django·毕业设计·源码·课程设计·美妆产品
syounger3 小时前
SAP与阿里巴巴战略合作升级:四大核心云解决方案落地阿里云
大数据·人工智能·阿里云
Q26433650234 小时前
【有源码】基于Hadoop+Spark的豆瓣电影数据分析与可视化系统-基于大数据的电影评分趋势分析与可视化系统
大数据·hadoop·python·数据分析·spark·毕业设计·课程设计
疯癫的老码农4 小时前
【小白入门docker】创建Spring Boot Hello World应用制作Docker镜像并运行
java·spring boot·分布式·docker·微服务
环球科讯4 小时前
建行广东茂名河东支行:开展“金融知识万里行”系列活动
大数据·人工智能