Spark处理过程-转换算子和行动算子(一)

RDD的处理过程


RDD经过一系列的"转换"操作,每一次转换都会产生不同的RDD,以供给下一次"转换"操作使用,直到最后一个RDD经过"行动"操作才会真正被计算处理。

  1. 延迟。RDD中所有的转换都是延迟的,它们并不会直接计算结果。相反,他们只是记住这些应用到基础数据集上的转换动作。只有当发生要求返回结果给driver的动作时,这些转换才会真正运行。
  2. 血缘关系。一个RDD运算之后,会产生新的RDD。
相关推荐
livemetee1 小时前
Flink2.0学习笔记:使用HikariCP 自定义sink实现数据库连接池化
大数据·数据库·笔记·学习·flink
人大博士的交易之路1 小时前
龙虎榜——20250822
大数据·数据挖掘·数据分析·缠中说禅·龙虎榜·道琼斯结构
小陈永不服输10 小时前
Windows下RabbitMQ完整安装指南
windows·分布式·rabbitmq
青云交11 小时前
Java 大视界 -- Java 大数据在智能安防人脸识别系统中的活体检测与防伪技术应用
java·大数据·生成对抗网络·人脸识别·智能安防·防伪技术·活体测试
chenglin01611 小时前
ES_索引模板
大数据·elasticsearch·jenkins
byte轻骑兵13 小时前
大数据时代时序数据库选型指南:深度解析与 Apache IoTDB 实践
大数据·apache·时序数据库
NPE~14 小时前
[docker/大数据]Spark快速入门
大数据·分布式·docker·spark·教程
的小姐姐15 小时前
AI与IIOT如何重新定义设备维护系统?_璞华大数据Hawkeye平台
大数据·人工智能
TDengine (老段)16 小时前
TDengine IDMP 最佳实践
大数据·数据库·物联网·ai·时序数据库·tdengine·涛思数据
Java小混子16 小时前
【Redis】缓存和分布式锁
redis·分布式·缓存