Spark内存迭代计算

一、宽窄依赖

窄依赖:父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖:父RDD的一个分区数据发往子RDD的多个分区,也称为shuffle

二、Spark是如何进行内存计算的?DAG的作用?Stage阶段划分的作用?

(1)Spark生成DAG图

(2)基于宽窄依赖对DAG图进行阶段划分

(3)每个stage内部都是窄依赖,窄依赖内,前后形成1:1的分区关系,一个stage的多个并行任务就成为了多个内存迭代计算管道

(4)这些内存迭代计算的管道,就是一个个具体的执行Task

(5)一个Task是一个具体的线程,任务跑在一个线程之中,就是走内存计算了。

相关推荐
言之。1 小时前
TiDB分布式数据库技术架构概述
数据库·分布式·tidb
老夫的码又出BUG了2 小时前
分布式Web应用场景下存在的Session问题
前端·分布式·后端
杂家2 小时前
Hadoop完全分布式部署(超详细)
大数据·hadoop·分布式
BD_Marathon2 小时前
【Hadoop】hadoop3.3.1完全分布式配置
大数据·hadoop·分布式
Ryan ZX2 小时前
etcd 高可用分布式键值存储
数据库·分布式·etcd
大G的笔记本2 小时前
分布式答案解析
分布式
Ashlee_code3 小时前
BSS供应商:电信与金融领域的幕后支撑者
大数据·网络·金融·系统架构·跨境·金融机构·场外期权
Tadas-Gao3 小时前
MySQL存储架构解析:从数据无序到索引艺术的演进
数据库·分布式·mysql·微服务·云原生·架构
鸽鸽程序猿3 小时前
【RabbitMQ】工作模式实现
分布式·rabbitmq
筑梦之人4 小时前
Spark-3.5.7文档3 - Spark SQL、DataFrame 和 Dataset 指南
spark