Spark详解

原理架构图

核心概念

  1. Driver: 一个应用只有一个Driver单节点 ,有任务队列,单线程串行执行 提交任务。但是一个集群可以有多个应用,实现应用级别的并发。向cluster Mannager申请执行节点资源,划分任务Stage,并整合worker结果
  2. Cluster Mannager: 资源管理器,接受Driver请求,按需启动Worker节点,不同模式启动时机不同。
  3. Worker: Worker启动后,注册给Driver,并接受执行Driver分发的任务,结果返回Driver,worker之间并行执行

Worker启动时机

收Cluster Mannager模式控制

  1. Standalone模式: 刚开始Worker就全部启动
  2. YARN模式: 动态按需
  3. K8s模式: 完全动态
相关推荐
葫芦和十三1 小时前
图解 MongoDB 23|两地三中心:跨可用区部署怎么扛机房故障
后端·mongodb·agent
勇哥java实战分享3 小时前
PaddleOCR 太慢?我换成 RapidOCR 后,速度直接起飞
后端
苏三说技术7 小时前
LangChain4j 和 LangGraph4j,哪个更好?
后端
ServBay8 小时前
7 个AI开发中真正用得上的 MCP Server,配合Claude Code食用效果更佳
后端·claude·mcp
妙码生花8 小时前
从 PHP 到 AI + Golang,程序员自救转型手记(十五):优化细节、网络请求封装
前端·后端·ai编程
用户6757049885029 小时前
Go 语言里判断字符串为空,90% 的人都写错了!
后端·go
用户6757049885029 小时前
Go 进阶必修:90% 的人都没用对的“表驱动法”
后端·go
小兔崽子去哪了9 小时前
Java 生成二维码解决方案
java·后端
苍何9 小时前
懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!
后端