Spark内存迭代计算

小刘鸭!2025-03-02 22:22

一、宽窄依赖

窄依赖：父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖：父RDD的一个分区数据发往子RDD的多个分区，也称为shuffle

二、Spark是如何进行内存计算的？DAG的作用？Stage阶段划分的作用？

（1）Spark生成DAG图

（2）基于宽窄依赖对DAG图进行阶段划分

（3）每个stage内部都是窄依赖，窄依赖内，前后形成1：1的分区关系，一个stage的多个并行任务就成为了多个内存迭代计算管道

（4）这些内存迭代计算的管道，就是一个个具体的执行Task

（5）一个Task是一个具体的线程，任务跑在一个线程之中，就是走内存计算了。

上一篇：【通俗讲解电子电路】——从零开始理解生活中的电路(一)

下一篇：Android平台GB28181接入模块(SmartGBD)技术接入说明

热门推荐

01UV安装并设置国内源 02【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04KGG转MP3工具|非KGM文件|解密音频 052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE Rules 实践：为项目配置 6A 工作流