Spark内存迭代计算

一、宽窄依赖

窄依赖:父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖:父RDD的一个分区数据发往子RDD的多个分区,也称为shuffle

二、Spark是如何进行内存计算的?DAG的作用?Stage阶段划分的作用?

(1)Spark生成DAG图

(2)基于宽窄依赖对DAG图进行阶段划分

(3)每个stage内部都是窄依赖,窄依赖内,前后形成1:1的分区关系,一个stage的多个并行任务就成为了多个内存迭代计算管道

(4)这些内存迭代计算的管道,就是一个个具体的执行Task

(5)一个Task是一个具体的线程,任务跑在一个线程之中,就是走内存计算了。

相关推荐
企鹅不耐热.23 分钟前
Spark-Streaming核心编程
大数据·分布式·spark
掘金-我是哪吒1 小时前
分布式微服务系统架构第120集:专业WebSocket鉴权
分布式·websocket·微服务·云原生·架构
人大博士的交易之路1 小时前
龙虎榜——20250422
大数据·数学建模·数据挖掘·缠论·缠中说禅·涨停回马枪·龙虎榜
我是苏苏1 小时前
消息中间件RabbitMQ-01:简要介绍及其Windows安装流程
分布式·rabbitmq
码熔burning1 小时前
【MQ篇】初识RabbitMQ保证消息可靠性
java·分布式·rabbitmq·可靠性
不要天天开心2 小时前
深入探索Spark-Streaming:从Kafka数据源创建DStream
spark
TDengine (老段)2 小时前
TDengine 流计算引擎设计
大数据·数据库·物联网·flink·时序数据库·tdengine·涛思数据
全栈开发圈2 小时前
新书速览|Hadoop与Spark大数据全景解析(视频教学版)
大数据·hadoop·spark
ShAn DiAn2 小时前
实时步数统计系统 kafka + spark +redis
大数据·redis·分布式·spark·kafka
用户199701080183 小时前
深入研究:Shopee商品列表API接口详解
大数据·爬虫·数据挖掘