Spark内存迭代计算

一、宽窄依赖

窄依赖:父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖:父RDD的一个分区数据发往子RDD的多个分区,也称为shuffle

二、Spark是如何进行内存计算的?DAG的作用?Stage阶段划分的作用?

(1)Spark生成DAG图

(2)基于宽窄依赖对DAG图进行阶段划分

(3)每个stage内部都是窄依赖,窄依赖内,前后形成1:1的分区关系,一个stage的多个并行任务就成为了多个内存迭代计算管道

(4)这些内存迭代计算的管道,就是一个个具体的执行Task

(5)一个Task是一个具体的线程,任务跑在一个线程之中,就是走内存计算了。

相关推荐
噼里啪啦啦.42 分钟前
RabbitMQ
分布式·rabbitmq
Luck_ff08101 小时前
Elasticsearch 快速入门指南
大数据·elasticsearch·搜索引擎
天天爱吃肉82181 小时前
大数据:新能源汽车宇宙的未来曲率引擎
大数据·汽车
小白学大数据3 小时前
Python+Selenium爬虫:豆瓣登录反反爬策略解析
分布式·爬虫·python·selenium
IvanCodes3 小时前
九、HQL DQL七大查询子句
大数据·数据库·hive
fjkxyl3 小时前
Kafka消息路由分区机制深度解析:架构设计与实现原理
分布式·kafka
yyywoaini~3 小时前
spark数据压缩
spark
只因只因爆3 小时前
spark数据清洗
大数据·分布式·spark
mini榴莲炸弹4 小时前
Spark的基本介绍
spark
sunxunyong4 小时前
yarn任务筛选spark任务,判断内存/CPU使用超过限制任务
javascript·ajax·spark