Spark处理过程-转换算子和行动算子(一)

RDD的处理过程


RDD经过一系列的"转换"操作,每一次转换都会产生不同的RDD,以供给下一次"转换"操作使用,直到最后一个RDD经过"行动"操作才会真正被计算处理。

  1. 延迟。RDD中所有的转换都是延迟的,它们并不会直接计算结果。相反,他们只是记住这些应用到基础数据集上的转换动作。只有当发生要求返回结果给driver的动作时,这些转换才会真正运行。
  2. 血缘关系。一个RDD运算之后,会产生新的RDD。
相关推荐
西岭千秋雪_2 分钟前
Zookeeper实现分布式锁
java·分布式·后端·zookeeper·wpf
毕设源码-钟学长4 小时前
【开题答辩全过程】以 分布式菌菇销售系统为例,包含答辩的问题和答案
分布式
TTBIGDATA7 小时前
【Ambari开启Kerberos】KERBEROS SERVICE CHECK 报错
大数据·运维·hadoop·ambari·cdh·bigtop·ttbigdata
开利网络7 小时前
合规底线:健康产品营销的红线与避坑指南
大数据·前端·人工智能·云计算·1024程序员节
非著名架构师7 小时前
量化“天气风险”:金融与保险机构如何利用气候大数据实现精准定价与投资决策
大数据·人工智能·新能源风光提高精度·疾风气象大模型4.0
Hello.Reader8 小时前
用 CdcUp CLI 一键搭好 Flink CDC 演练环境
大数据·flink
熙梦数字化8 小时前
2025汽车零部件行业数字化转型落地方案
大数据·人工智能·汽车
Hello.Reader8 小时前
Flink CDC「Data Pipeline」定义与参数速查
大数据·flink
千禧皓月11 小时前
【C++】基于C++的RPC分布式网络通信框架(二)
c++·分布式·rpc
森语林溪11 小时前
大数据环境搭建从零开始(十四)CentOS 7 系统更新源更换详解:阿里云镜像源配置完整指南
大数据·linux·运维·阿里云·centos