spark-core

RDD行动算子:行动算子就是会触发action的算子,触发action的含义就是真正的计算数据。

reduce ➢

函数说明聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据。

collect➢

函数签名def collect(): Array[T]➢ 函数说明在驱动程序中,以数组 Array 的形式返回数据集的所有元素

  1. foreach➢ 函数签名def foreach(f: T => Unit): Unit = withScope { val cleanF = sc.clean(f) sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))}➢ 函数说明分布式遍历 RDD 中的每一个元素,调用指定函数

  2. count➢ 函数签名def count(): Long➢ 函数说明返回 RDD 中元素的个数

  3. first➢ 函数签名def first(): T➢ 函数说明返回 RDD 中的第一个元素

  4. take➢ 函数签名def take(num: Int): Array[T]➢ 函数说明返回一个由 RDD 的前 n 个元素组成的数组

  5. takeOrdered➢ 函数签名def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T]➢ 函数说明返回该 RDD 排序后的前 n 个元素组成的数组

相关推荐
uesowys1 天前
Apache Spark算法开发指导-特征转换RobustScaler
spark·特征转换·robustscaler
努力成为一个程序猿.1 天前
【问题排查】hadoop-shaded-guava依赖问题
大数据·hadoop·spark
~kiss~1 天前
spark-SQL学习
sql·学习·spark
2501_938780283 天前
《不止 MapReduce:Hadoop 与 Spark 的计算模型差异及适用场景分析》
hadoop·spark·mapreduce
2501_938773993 天前
《Hadoop 与 Spark 融合路径:基于 Spark on YARN 的部署与调优技巧》
大数据·hadoop·spark
2501_938782094 天前
《大数据框架选型指南:Hadoop 与 Spark 的性能、成本与扩展性对比》
大数据·hadoop·spark
北邮-吴怀玉4 天前
6.1.1.3 大数据方法论与实践指南-SparkStreaming 任务优化实践
大数据·flink·spark·数据治理
Q26433650234 天前
【有源码】基于Hadoop与Spark的时尚精品店数据分析与可视化系统-基于多维度分析的零售时尚销售数据挖掘与可视化研究
大数据·hadoop·机器学习·数据挖掘·数据分析·spark·毕业设计
北邮-吴怀玉4 天前
6.1.1.1 大数据方法论与实践指南-Spark/Flink 任务开发规范
大数据·flink·spark
LDG_AGI5 天前
【推荐系统】深度学习训练框架(一):深入剖析Spark集群计算中Master与Pytorch分布式计算Master的区别
人工智能·深度学习·算法·机器学习·spark