Spark RDD

一、什么是 RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

➢ 弹性

⚫ 存储的弹性:内存与磁盘的自动切换

⚫ 容错的弹性:数据丢失可以自动恢复

⚫ 计算的弹性:计算出错重试机制

⚫ 分片的弹性:可根据需要重新分片。

➢ 分布式:数据存储在大数据集群不同节点上

➢ 数据集:RDD 封装了计算逻辑,并不保存数据

➢ 数据抽象:RDD 是一个抽象类,需要子类具体实现

➢ 不可变:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在

新的 RDD 里面封装计算逻辑

➢ 可分区、并行计算

二、Spark中的RDD(弹性分布式数据集)有以下常用API:

map(func): 对RDD中的每个元素应用给定的函数,并返回一个新的RDD。
scala 复制代码
  val mapRDD = rdd.map(
    num => {
      // 使用累加器
      sumAcc.add(num)
      num
    }
  )
filter(func): 根据给定的函数过滤RDD中的元素,并返回一个新的RDD。
scala 复制代码
  val orderActionRDD = actionRDD.filter(
    action => {
      val datas = action.split("_")
      datas(8) != "null"
    }
  )
flatMap(func): 对RDD中的每个元素应用给定的函数,并将结果扁平化为一个新的RDD。
scala 复制代码
val words: RDD[String] = lines.flatMap(_.split(" "))
reduce(func): 使用给定的函数将RDD中的所有元素聚合成一个值。
scala 复制代码
  val wordCount = mapWord.reduce(
    (map1, map2) => {
      map2.foreach {
        case (word, count) => {
          val newCount = map1.getOrElse(word, 0L) + count
          map1.update(word, newCount)
        }
      }
      map1
    }
  )
collect(): 将RDD中的所有元素收集到驱动程序节点的数组中。
scala 复制代码
mapRDD.collect()
  1. count(): 返回RDD中的元素个数。

    scala 复制代码
    val cnt = rdd.count()
  2. first(): 返回RDD中的第一个元素。

    scala 复制代码
    val first = rdd.first()
  3. take(n): 返回RDD中的前n个元素。

    scala 复制代码
    val ints: Array[Int] = rdd.take(3)
  4. takeSample(withReplacement, num, seed): 从RDD中随机抽取样本。

    scala 复制代码
  5. foreach(func): 对RDD中的每个元素应用给定的函数,但不返回结果。

    scala 复制代码
    rdd.foreach(
     num => {
    // 使用累加器
       sumAcc.add(num)
      }
    )
  6. foreachPartition(func): 对RDD中的每个分区应用给定的函数。

    scala 复制代码
      rdd.foreachPartition(iter => {
        val conn = JDBCUtil.getConnection
        iter.foreach {
          case ((day, user, ad), count) => {
    
          }
        }
        conn.close()
      })
  7. groupByKey(): 根据键值对RDD中的键进行分组。

    scala 复制代码
  8. reduceByKey(func): 根据键值对RDD中的键进行聚合。

    scala 复制代码
  9. aggregateByKey(zeroValue, seqOp, combOp): 根据键值对RDD中的键进行聚合。

    scala 复制代码
  10. sortBy(keyFunc): 根据给定的键函数对RDD中的元素进行排序。

    scala 复制代码
  11. sortBy(keyFunc, ascending): 根据给定的键函数和升序标志对RDD中的元素进行排序。

    scala 复制代码
  12. union(other): 合并两个RDD。

    scala 复制代码
  13. intersection(other): 计算两个RDD的交集。

    scala 复制代码
  14. subtract(other): 计算两个RDD的差集。

    scala 复制代码
  15. distinct(): 去除RDD中的重复元素。

    scala 复制代码
  16. cartesian(other): 计算两个RDD的笛卡尔积。

    scala 复制代码
  17. pipe(command): 使用外部命令处理RDD中的数据。

    scala 复制代码
  18. saveAsTextFile(path): 将RDD保存为文本文件。

    scala 复制代码
  19. textFile(path): 从文本文件中读取数据并创建RDD。

    scala 复制代码
  20. parallelize(data): 从集合中创建RDD。

    scala 复制代码
  21. toDF(): 将RDD转换为DataFrame。

    scala 复制代码
  22. toDS(): 将RDD转换为Dataset。

    scala 复制代码

这些API是Spark RDD编程模型中最常用的一些,它们可以帮助你完成数据处理、转换和聚合等任务。

相关推荐
权^21 分钟前
MySQL--聚合查询、联合查询、子查询、合并查询(上万字超详解!!!)
大数据·数据库·学习·mysql
bin91535 小时前
【EXCEL数据处理】000010 案列 EXCEL文本型和常规型转换。使用的软件是微软的Excel操作的。处理数据的目的是让数据更直观的显示出来,方便查看。
大数据·数据库·信息可视化·数据挖掘·数据分析·excel·数据可视化
极客先躯8 小时前
Hadoop krb5.conf 配置详解
大数据·hadoop·分布式·kerberos·krb5.conf·认证系统
2301_7869643610 小时前
3、练习常用的HBase Shell命令+HBase 常用的Java API 及应用实例
java·大数据·数据库·分布式·hbase
matlabgoodboy10 小时前
“图像识别技术:重塑生活与工作的未来”
大数据·人工智能·生活
新手unity自用笔记11 小时前
项目-坦克大战学习-子弹的移动与销毁
笔记·学习·c#
happycao12311 小时前
Flink 03 | 数据流基本操作
大数据·flink
Neituijunsir12 小时前
2024.09.22 校招 实习 内推 面经
大数据·人工智能·算法·面试·自动驾驶·汽车·求职招聘
qinzechen12 小时前
分享几个做题网站------学习网------工具网;
java·c语言·c++·python·c#
Data 31713 小时前
Hive数仓操作(十一)
大数据·数据库·数据仓库·hive·hadoop