Spark内存迭代计算

一、宽窄依赖

窄依赖:父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖:父RDD的一个分区数据发往子RDD的多个分区,也称为shuffle

二、Spark是如何进行内存计算的?DAG的作用?Stage阶段划分的作用?

(1)Spark生成DAG图

(2)基于宽窄依赖对DAG图进行阶段划分

(3)每个stage内部都是窄依赖,窄依赖内,前后形成1:1的分区关系,一个stage的多个并行任务就成为了多个内存迭代计算管道

(4)这些内存迭代计算的管道,就是一个个具体的执行Task

(5)一个Task是一个具体的线程,任务跑在一个线程之中,就是走内存计算了。

相关推荐
guoji778839 分钟前
2026年Gemini 3 Pro vs 豆包2.0深度评测:海外顶流与国产黑马谁更强?
大数据·人工智能·架构
TDengine (老段)40 分钟前
TDengine IDMP 组态面板 —— 工具箱
大数据·数据库·时序数据库·tdengine·涛思数据
网络工程小王1 小时前
【大数据技术详解】——Kibana(学习笔记)
大数据·笔记·学习
zxsz_com_cn3 小时前
设备预测性维护方案设计的关键要素
大数据·人工智能
唐天下闻化3 小时前
连锁数字化改造8成翻车?三维避坑实录
大数据
坚持学习前端日记5 小时前
从零开始构建小说推荐智能体 - Coze 本地部署完整教程
大数据·人工智能·数据挖掘
IDIOT___IDIOT6 小时前
关于 git 进行版本管理的时候 gitignore 写入忽略规则而不生效的问题
大数据·git·elasticsearch
不想看见4046 小时前
Git 误删急救手册
大数据·git·elasticsearch
少许极端6 小时前
消息队列-RabbitMQ(1)
分布式·消息队列·rabbitmq