spark运行流程

spark运行流程

  1. 任务提交后,先启动 Driver 程序
  2. 随后 Driver 向集群管理器注册应用程序
  3. 集群管理器根据此任务的配置文件分配 Executor 并启动
  4. Driver 开始执行 main 函数,Spark 查询为懒执行,当执行到 Action 算子时开始反向推
    算,根据宽依赖进行 Stage 的划分,随后每一个 Stage 对应一个 Taskset,Taskset 中有多个 Task
  5. 查找可用资源 Executor 进行调度
  6. 根据本地化原则,Task 会被分发到指定的 Executor 去执行
  7. 任务执行的过程中,Executor 也会不断与 Driver 进行通信,报告任务运行情况
    进行通信,报告任务运行情况
相关推荐
TDengine (老段)1 小时前
TDengine IDMP 快速体验(方式二 通过 docker)
大数据·数据库·docker·ai·时序数据库·tdengine·涛思数据
小獾哥2 小时前
Centos8系统在安装Git包时,报错:“没有任何匹配: git”
大数据·git·elasticsearch
掘金-我是哪吒5 小时前
分布式微服务系统架构第163集:哈罗电池设备Netty网关架构
分布式·微服务·云原生·架构·系统架构
Code季风7 小时前
如果缓存和数据库更新失败,如何实现最终一致性?
数据库·分布式·缓存·微服务·性能优化
金融小师妹8 小时前
基于AI量化模型的比特币周期重构:传统四年规律是否被算法因子打破?
大数据·人工智能·算法
拓端研究室11 小时前
专题:2025人形机器人与服务机器人技术及市场报告|附130+份报告PDF汇总下载
大数据·人工智能
计算机源启编程11 小时前
大数据毕设选题-基于spark+hadoop技术的北京市医保药品分析与可视化系统的设计与实现
大数据
计算机程序员小杨13 小时前
你知道用Spark处理海洋污染大数据有多震撼吗?这套可视化系统告诉你答案
大数据
Rookie小强13 小时前
ZooKeeper和Reids做分布式锁的区别?
分布式·zookeeper·云原生
蝸牛ちゃん13 小时前
大数据系统架构模式:驾驭海量数据的工程范式
大数据·系统架构