spark-core

RDD行动算子:行动算子就是会触发action的算子,触发action的含义就是真正的计算数据。

reduce ➢

函数说明聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据。

collect➢

函数签名def collect(): Array[T]➢ 函数说明在驱动程序中,以数组 Array 的形式返回数据集的所有元素

  1. foreach➢ 函数签名def foreach(f: T => Unit): Unit = withScope { val cleanF = sc.clean(f) sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))}➢ 函数说明分布式遍历 RDD 中的每一个元素,调用指定函数

  2. count➢ 函数签名def count(): Long➢ 函数说明返回 RDD 中元素的个数

  3. first➢ 函数签名def first(): T➢ 函数说明返回 RDD 中的第一个元素

  4. take➢ 函数签名def take(num: Int): Array[T]➢ 函数说明返回一个由 RDD 的前 n 个元素组成的数组

  5. takeOrdered➢ 函数签名def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T]➢ 函数说明返回该 RDD 排序后的前 n 个元素组成的数组

相关推荐
武子康2 天前
大数据-270 Spark MLib-机器学习库快速入门(分类/回归/聚类/推荐)
大数据·后端·spark
DolphinScheduler社区2 天前
第 8 篇|Apache DolphinScheduler 与 Flink Spark 数据引擎的边界、协同与最佳实践
大数据·flink·spark·开源·apache·海豚调度·大数据工作流调度
黄焖鸡能干四碗2 天前
企业元数据梳理和元数据管理方案(PPT方案)
大数据·运维·网络·分布式·spark
木心术12 天前
大数据处理技术:Hadoop与Spark核心原理解析
大数据·hadoop·分布式·spark
talen_hx2963 天前
《零基础入门Spark》学习笔记 Day 16
笔记·学习·spark
我要用代码向我喜欢的女孩表白4 天前
在spark集群上在部署一套spark环境,不要影响过去环境
大数据·分布式·spark
新缸中之脑4 天前
Meta新模型Muse Spark上手体验
大数据·分布式·spark
Thomas21434 天前
pyspark 新接口 DataSource V2 写法 写入paimon为例
大数据·分布式·spark
howard20055 天前
2.2.3.1 搭建Spark集群
spark·standalone集群
isNotNullX5 天前
数据仓库是什么?怎么搭建数据仓库?
大数据·分布式·spark