Spark处理过程-转换算子和行动算子(一)

RDD的处理过程


RDD经过一系列的"转换"操作,每一次转换都会产生不同的RDD,以供给下一次"转换"操作使用,直到最后一个RDD经过"行动"操作才会真正被计算处理。

  1. 延迟。RDD中所有的转换都是延迟的,它们并不会直接计算结果。相反,他们只是记住这些应用到基础数据集上的转换动作。只有当发生要求返回结果给driver的动作时,这些转换才会真正运行。
  2. 血缘关系。一个RDD运算之后,会产生新的RDD。
相关推荐
百胜软件@百胜软件2 分钟前
新零售模式下仓储变化与发展趋势
大数据·零售
lisw051 小时前
编程语言top5对比分析!
大数据·人工智能·程序人生·机器学习·软件工程
打码人的日常分享1 小时前
信息化系统安全建设方案
大数据·数据库·人工智能·安全·系统安全
幂简集成1 小时前
需求从0到1:AI提示词助力客户画像→功能脑暴→PRD→价值主张
大数据·人工智能
lifallen2 小时前
Flink TCP Channel复用:NettyServer、NettyProtocol详解
大数据·flink·nio
Hello.Reader2 小时前
用 Flink 打造事件驱动流式应用从 DataStream 到 ProcessFunction
大数据·flink
jqy20252 小时前
什么是合同管理系统?6个核心功能介绍
大数据·合同 管理系统·电子合同管理
韩立学长2 小时前
【开题答辩实录分享】以《基于大数据的私人牙科诊所病例管理系统》为例进行答辩实录分享
大数据·管理系统
计算机编程小央姐2 小时前
大数据毕业设计选题推荐:基于Hadoop+Spark的全球能源消耗数据分析与可视化系统
大数据·hadoop·数据分析·spark·课程设计·毕设
计算机编程小央姐3 小时前
企业级大数据技术栈:基于Hadoop+Spark的全球经济指标分析与可视化系统实践
大数据·hadoop·hdfs·spark·echarts·numpy·课程设计