spark运行流程

spark运行流程

  1. 任务提交后,先启动 Driver 程序
  2. 随后 Driver 向集群管理器注册应用程序
  3. 集群管理器根据此任务的配置文件分配 Executor 并启动
  4. Driver 开始执行 main 函数,Spark 查询为懒执行,当执行到 Action 算子时开始反向推
    算,根据宽依赖进行 Stage 的划分,随后每一个 Stage 对应一个 Taskset,Taskset 中有多个 Task
  5. 查找可用资源 Executor 进行调度
  6. 根据本地化原则,Task 会被分发到指定的 Executor 去执行
  7. 任务执行的过程中,Executor 也会不断与 Driver 进行通信,报告任务运行情况
    进行通信,报告任务运行情况
相关推荐
阿里云大数据AI技术3 小时前
大数据公有云市场第一,阿里云占比47%!
大数据
Lx3527 小时前
Hadoop容错机制深度解析:保障作业稳定运行
大数据·hadoop
Aomnitrix11 小时前
知识管理新范式——cpolar+Wiki.js打造企业级分布式知识库
开发语言·javascript·分布式
程序消消乐11 小时前
Kafka 入门指南:从 0 到 1 构建你的 Kafka 知识基础入门体系
分布式·kafka
智能化咨询11 小时前
Kafka架构:构建高吞吐量分布式消息系统的艺术——进阶优化与行业实践
分布式·架构·kafka
Chasing__Dreams11 小时前
kafka--基础知识点--5.2--最多一次、至少一次、精确一次
分布式·kafka
计算机毕业设计木哥11 小时前
计算机毕设选题推荐:基于Java+SpringBoot物品租赁管理系统【源码+文档+调试】
java·vue.js·spring boot·mysql·spark·毕业设计·课程设计
T062051412 小时前
工具变量-5G试点城市DID数据(2014-2025年
大数据
向往鹰的翱翔12 小时前
BKY莱德因:5大黑科技逆转时光
大数据·人工智能·科技·生活·健康医疗