Spark,RDD中的行动算子

RDD中的行动算子

collect算子

格式:def collect(): Array[T]

参数说明:该算子没有参数。

并以数组的形式返回

统计个数

reduce算子

格式:def reduce(func: (T, T) => T): T

返回值:返回一个单一的值,其类型与 RDD 中元素的类型相同。

count,聚合操作 eg:计算rdd中的元素之和

foreach算子

格式:def foreach(f: T => Unit): Unit

返回值:该算子的返回类型为 Unit,即不返回任何有意义的值,它主要是为了执行副作用操作。

遍历操作

相关推荐
北邮-吴怀玉2 小时前
2.2.1.1 大数据方法论与实践指南-公司产品&功能命名管理
大数据·数据治理
码龄3年 审核中6 小时前
说说SSH的端口转发
大数据·运维·ssh
SeaTunnel7 小时前
(二)从分层架构到数据湖仓架构:数据仓库分层下的技术架构与举例
大数据·数据仓库·数据分析·数据同步
兜兜风d'7 小时前
RabbitMQ 七种工作模式全解析
分布式·rabbitmq
数据库安全7 小时前
牛品推荐|分类分级效能飞跃:美创智能数据安全分类分级平台
大数据·人工智能·分类
数据库安全8 小时前
《金融电子化》:构建金融韧性运行安全体系:从灾备管理到主动防御新范式
大数据·安全·金融
菜鸡儿齐8 小时前
kafka高可靠性
分布式·kafka
GG向前冲8 小时前
【大数据】Spark MLlib 机器学习流水线搭建
大数据·机器学习·spark-ml
我要升天!10 小时前
Git的原理与使用 -- 基础操作
大数据·服务器·git·elasticsearch
兜兜风d'10 小时前
RabbitMQ 持久性详解
spring boot·分布式·rabbitmq·1024程序员节