spark-core

RDD行动算子:行动算子就是会触发action的算子,触发action的含义就是真正的计算数据。

reduce ➢

函数说明聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据。

collect➢

函数签名def collect(): Array[T]➢ 函数说明在驱动程序中,以数组 Array 的形式返回数据集的所有元素

  1. foreach➢ 函数签名def foreach(f: T => Unit): Unit = withScope { val cleanF = sc.clean(f) sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))}➢ 函数说明分布式遍历 RDD 中的每一个元素,调用指定函数

  2. count➢ 函数签名def count(): Long➢ 函数说明返回 RDD 中元素的个数

  3. first➢ 函数签名def first(): T➢ 函数说明返回 RDD 中的第一个元素

  4. take➢ 函数签名def take(num: Int): Array[T]➢ 函数说明返回一个由 RDD 的前 n 个元素组成的数组

  5. takeOrdered➢ 函数签名def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T]➢ 函数说明返回该 RDD 排序后的前 n 个元素组成的数组

相关推荐
云淡风轻~~2 小时前
构建和部署Spark、Hadoop与Zeppelin集成环境
大数据·hadoop·spark
IT研究室2 小时前
大数据毕业设计选题推荐-基于大数据的人体体能活动能量消耗数据分析与可视化系统-大数据-Spark-Hadoop-Bigdata
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
zhixingheyi_tian5 小时前
Spark 之 links
spark
Yana_Zeng2 天前
win10安装spark3.1详细流程(小白用)
hadoop·windows·spark
1024find2 天前
Spark on k8s部署
大数据·运维·容器·spark·kubernetes
Lansonli4 天前
大数据Spark(六十七):Transformation转换算子distinct和mapValues
大数据·分布式·spark
weixin_525936335 天前
金融大数据处理与分析
hadoop·python·hdfs·金融·数据分析·spark·matplotlib
geilip5 天前
知识体系_scala_利用scala和spark构建数据应用
开发语言·spark·scala
孟意昶5 天前
Spark专题-第三部分:性能监控与实战优化(3)-数据倾斜优化
大数据·分布式·sql·spark
Lansonli5 天前
大数据Spark(六十六):Transformation转换算子sample、sortBy和sortByKey
大数据·分布式·spark