Spark内存迭代计算

一、宽窄依赖

窄依赖:父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖:父RDD的一个分区数据发往子RDD的多个分区,也称为shuffle

二、Spark是如何进行内存计算的?DAG的作用?Stage阶段划分的作用?

(1)Spark生成DAG图

(2)基于宽窄依赖对DAG图进行阶段划分

(3)每个stage内部都是窄依赖,窄依赖内,前后形成1:1的分区关系,一个stage的多个并行任务就成为了多个内存迭代计算管道

(4)这些内存迭代计算的管道,就是一个个具体的执行Task

(5)一个Task是一个具体的线程,任务跑在一个线程之中,就是走内存计算了。

相关推荐
京东零售技术25 分钟前
用AI重塑电商,京东零售发布电商创新AI架构体系Oxygen
大数据·人工智能
档案宝档案管理29 分钟前
零售企业档案检索慢?档案管理系统解决档案管理痛点
大数据·人工智能·档案·档案管理
青云交1 小时前
Java 大视界 -- Java 大数据机器学习模型在金融产品创新与客户需求匹配中的实战应用(417)
java·大数据·金融机器学习·客户需求匹配·产品创新·安居组合贷·合规审计
计算机毕设残哥1 小时前
用Spark+Django打造食物营养数据可视化分析系统
大数据·hadoop·python·信息可视化·数据分析·spark·django
没有bug.的程序员3 小时前
ShardingSphere 与分库分表:分布式数据库中间件实战指南
java·数据库·分布式·中间件·分布式数据库·shardingsphere·分库分表
Elastic 中国社区官方博客3 小时前
理解 Elasticsearch 中的分块策略
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
鲸鱼24013 小时前
图像分类笔记
大数据·笔记·分类
dalianwawatou3 小时前
kafka-日志收集平台部署项目
分布式·kafka
武子康4 小时前
大数据-109 Flink 架构深度解析:JobManager、TaskManager 与核心角色全景图
大数据·后端·flink
企鹅侠客5 小时前
ElasticSearch-提高篇
大数据·elasticsearch·jenkins