Spark处理过程-转换算子和行动算子(一)

RDD的处理过程


RDD经过一系列的"转换"操作,每一次转换都会产生不同的RDD,以供给下一次"转换"操作使用,直到最后一个RDD经过"行动"操作才会真正被计算处理。

  1. 延迟。RDD中所有的转换都是延迟的,它们并不会直接计算结果。相反,他们只是记住这些应用到基础数据集上的转换动作。只有当发生要求返回结果给driver的动作时,这些转换才会真正运行。
  2. 血缘关系。一个RDD运算之后,会产生新的RDD。
相关推荐
掘金-我是哪吒16 分钟前
分布式微服务系统架构第126集:集群,数据库扩展,多节点分布,分库,分表,分片,分表,运维
运维·数据库·分布式·微服务·系统架构
Leo.yuan37 分钟前
数据分析怎么做?高效的数据分析方法有哪些?
大数据·数据库·信息可视化·数据挖掘·数据分析
·云扬·2 小时前
【PmHub后端篇】Skywalking:性能监控与分布式追踪的利器
分布式·skywalking
杜清卿2 小时前
Spark处理过程-转换算子和行动算子
大数据·分布式·spark
小冻梨!!!2 小时前
Spark,在shell中运行RDD程序
大数据·javascript·spark
IvanCodes3 小时前
五、Hive表类型、分区及数据加载
大数据·数据仓库·hive
小白的白是白痴的白4 小时前
Spark基础介绍
大数据·分布式·spark
火山引擎开发者社区4 小时前
推理加速新范式:火山引擎高性能分布式 KVCache (EIC)核心技术解读
分布式·火山引擎·eic
CONTONUE4 小时前
【Spark】使用Spark集群搭建Yarn模式
大数据·分布式·spark
迪捷软件5 小时前
从概念表达到安全验证:智能驾驶功能迎来系统性规范
大数据·人工智能