【RDD算子的分类】RDD的转换算子和触发算子(行为算子)、以及各个算子的作用,对比sql中的关键字

文章目录


1、Tranformation算子:转换算子

都是lazy模式的,一般不会触发job的运行,算子返回值一定是RDD

转换算子有哪些:

filter、map、flatMap、union、distinct、groupByKey、reduceByKey、sortBy、sortByKey、repartition、coalesce、keys、values、mapValues、join fullOuterJoin leftOuterJoin rightOuterJoin、 mapPartitions

2、Action算子:触发算子【行为算子】

一定会触发job的运行,返回值一定不是RDD

触发算子有哪些:

collect、count、take、foreach、saveAsTextFile、first、reduce、top、takeOrdered、collectAsMap、foreachPartition、max、min、mean、sum

3、各个算子的作用,对比sql中的关键字

类比SQL处理数据的常见功能,记住常用算子的功能、 语法、场景

  • 过滤数据:where、having => filter
  • 处理数据:字符串函数、日期函数 => map
  • 展开数据:explode => flatMap合并数据:union、join => union join
  • 去重数据:distinct => distinct
  • 分组聚合:group by + 聚合函数 => groupByKey、 reduceByKey
  • 排序数据:order by 、sort by => sortBy、top
相关推荐
计算机毕设残哥12 小时前
完整技术栈分享:基于Hadoop+Spark的在线教育投融资大数据可视化分析系统
大数据·hadoop·python·信息可视化·spark·计算机毕设·计算机毕业设计
计算机源码社1 天前
分享一个基于Hadoop+spark的超市销售数据分析与可视化系统,超市顾客消费行为分析系统的设计与实现
大数据·hadoop·数据分析·spark·计算机毕业设计源码·计算机毕设选题·大数据选题推荐
码界筑梦坊1 天前
135-基于Spark的抖音数据分析热度预测系统
大数据·python·数据分析·spark·毕业设计·echarts
计算机毕业设计木哥2 天前
计算机毕设大数据选题推荐 基于spark+Hadoop+python的贵州茅台股票数据分析系统【源码+文档+调试】
大数据·hadoop·python·计算机网络·spark·课程设计
请提交用户昵称2 天前
Spark运行架构
大数据·架构·spark
计算机毕业设计木哥2 天前
基于大数据spark的医用消耗选品采集数据可视化分析系统【Hadoop、spark、python】
大数据·hadoop·python·信息可视化·spark·课程设计
卖寂寞的小男孩3 天前
Spark执行计划与UI分析
ui·ajax·spark
计算机毕设-小月哥4 天前
【限时分享:Hadoop+Spark+Vue技术栈电信客服数据分析系统完整实现方案
大数据·vue.js·hadoop·python·信息可视化·spark·计算机毕业设计
wyn200011285 天前
Spark学习(Pyspark)
spark
计算机毕业编程指导师6 天前
毕业设计选题推荐之基于Spark的在线教育投融数据可视化分析系统 |爬虫|大数据|大屏|预测|深度学习|数据分析|数据挖掘
大数据·hadoop·python·数据挖掘·spark·毕业设计·在线教育投融