Spark内存迭代计算

一、宽窄依赖

窄依赖:父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖:父RDD的一个分区数据发往子RDD的多个分区,也称为shuffle

二、Spark是如何进行内存计算的?DAG的作用?Stage阶段划分的作用?

(1)Spark生成DAG图

(2)基于宽窄依赖对DAG图进行阶段划分

(3)每个stage内部都是窄依赖,窄依赖内,前后形成1:1的分区关系,一个stage的多个并行任务就成为了多个内存迭代计算管道

(4)这些内存迭代计算的管道,就是一个个具体的执行Task

(5)一个Task是一个具体的线程,任务跑在一个线程之中,就是走内存计算了。

相关推荐
Debug_Snail34 分钟前
【营销策略算法】关联规则学习-购物篮分析
大数据·人工智能
BYSJMG1 小时前
计算机毕设大数据方向:基于Spark+Hadoop的餐饮外卖平台数据分析系统【源码+文档+调试】
大数据·hadoop·分布式·python·spark·django·课程设计
java水泥工2 小时前
基于Echarts+HTML5可视化数据大屏展示-茶叶种植大数据溯源平台
大数据·echarts·html5
华略创新3 小时前
标准化与定制化的平衡艺术:制造企业如何通过灵活配置释放系统价值
大数据·人工智能·制造·crm·管理系统·erp·企业管理
PXM的算法星球5 小时前
ZooKeeper vs Redis:分布式锁的实现与选型指南
redis·分布式·zookeeper
半夏陌离5 小时前
SQL 实战指南:电商订单数据分析(订单 / 用户 / 商品表关联 + 统计需求)
java·大数据·前端
寒士obj6 小时前
Redisson分布式锁:看门狗机制与续期原理
redis·分布式
Micrle_0076 小时前
java分布式场景怎么实现一个高效的 读-写锁
java·分布式
楠枬6 小时前
Curator 如何实现分布式锁
分布式·zookeeper
Badman6 小时前
分布式系统下的数据一致性-Redis分布式锁
redis·分布式·后端