spark运行流程

spark运行流程

  1. 任务提交后,先启动 Driver 程序
  2. 随后 Driver 向集群管理器注册应用程序
  3. 集群管理器根据此任务的配置文件分配 Executor 并启动
  4. Driver 开始执行 main 函数,Spark 查询为懒执行,当执行到 Action 算子时开始反向推
    算,根据宽依赖进行 Stage 的划分,随后每一个 Stage 对应一个 Taskset,Taskset 中有多个 Task
  5. 查找可用资源 Executor 进行调度
  6. 根据本地化原则,Task 会被分发到指定的 Executor 去执行
  7. 任务执行的过程中,Executor 也会不断与 Driver 进行通信,报告任务运行情况
    进行通信,报告任务运行情况
相关推荐
Ulyanov7 小时前
Apache Kafka在雷达仿真数据流处理中的应用
分布式·python·kafka·apache·雷达电子战
大嘴皮猴儿9 小时前
从零开始学商品图翻译:小白也能快速掌握的多语言文字处理与上架技巧
大数据·ide·人工智能·macos·新媒体运营·xcode·自动翻译
雷工笔记9 小时前
《为什么 10 倍增长比 2 倍更容易》读书笔记:反内卷的指数级增长破局法
大数据
captain_AIouo9 小时前
OZON航海引领者Captain AI指引运营新航向
大数据·人工智能·经验分享·aigc
Ssan PRIN9 小时前
深度掌握 RabbitMQ 消息确认(ACK)机制,确保消息万无一失
分布式·rabbitmq
切糕师学AI10 小时前
深入理解 CAP 定理:分布式系统中的一致性、可用性与分区容错
分布式·cap
K3v10 小时前
【git】删除本地以及远端已经合并到master的分支
大数据·git·elasticsearch
53AI11 小时前
智能调度赋能交通行业:从经验驱动到数据智能的跨越
大数据·人工智能·知识库·智能调度·53ai
黎阳之光12 小时前
黎阳之光核工厂202应急管控平台|全域实景孪生,筑牢核安全最后一道防线
大数据·人工智能·算法·安全·数字孪生
roman_日积跬步-终至千里12 小时前
【系统架构设计师-综合题-知识点(1)】系统工程与信息技术基础
大数据