spark运行流程

spark运行流程

  1. 任务提交后,先启动 Driver 程序
  2. 随后 Driver 向集群管理器注册应用程序
  3. 集群管理器根据此任务的配置文件分配 Executor 并启动
  4. Driver 开始执行 main 函数,Spark 查询为懒执行,当执行到 Action 算子时开始反向推
    算,根据宽依赖进行 Stage 的划分,随后每一个 Stage 对应一个 Taskset,Taskset 中有多个 Task
  5. 查找可用资源 Executor 进行调度
  6. 根据本地化原则,Task 会被分发到指定的 Executor 去执行
  7. 任务执行的过程中,Executor 也会不断与 Driver 进行通信,报告任务运行情况
    进行通信,报告任务运行情况
相关推荐
数据智能老司机34 分钟前
数据工程设计模式——数据基础
大数据·设计模式·架构
笨蛋少年派1 小时前
HDFS简介
大数据·hadoop·hdfs
Cikiss2 小时前
图解 bulkProcessor(调度器 + bulkAsync() + Semaphore)
java·分布式·后端·elasticsearch·搜索引擎
zskj_qcxjqr2 小时前
数字大健康浪潮下:智能设备重构人力生态,传统技艺如何新生?
大数据·人工智能·科技·机器人
小马爱打代码2 小时前
zookeeper:架构原理和使用场景
分布式·zookeeper·架构
Logintern092 小时前
【学习篇】Redis 分布式锁
redis·分布式·学习
1024find3 小时前
Spark on k8s部署
大数据·运维·容器·spark·kubernetes
计算机编程-吉哥12 小时前
大数据毕业设计-基于大数据的NBA美国职业篮球联赛数据分析可视化系统(高分计算机毕业设计选题·定制开发·真正大数据·机器学习毕业设计)
大数据·毕业设计·计算机毕业设计选题·机器学习毕业设计·大数据毕业设计·大数据毕业设计选题推荐·大数据毕设项目
计算机编程-吉哥12 小时前
大数据毕业设计-基于大数据的BOSS直聘岗位招聘数据可视化分析系统(高分计算机毕业设计选题·定制开发·真正大数据·机器学习毕业设计)
大数据·毕业设计·计算机毕业设计选题·机器学习毕业设计·大数据毕业设计·大数据毕业设计选题推荐·大数据毕设项目
RunningShare14 小时前
从“国庆景区人山人海”看大数据处理中的“数据倾斜”难题
大数据·flink