Spark详解

原理架构图

核心概念

  1. Driver: 一个应用只有一个Driver单节点 ,有任务队列,单线程串行执行 提交任务。但是一个集群可以有多个应用,实现应用级别的并发。向cluster Mannager申请执行节点资源,划分任务Stage,并整合worker结果
  2. Cluster Mannager: 资源管理器,接受Driver请求,按需启动Worker节点,不同模式启动时机不同。
  3. Worker: Worker启动后,注册给Driver,并接受执行Driver分发的任务,结果返回Driver,worker之间并行执行

Worker启动时机

收Cluster Mannager模式控制

  1. Standalone模式: 刚开始Worker就全部启动
  2. YARN模式: 动态按需
  3. K8s模式: 完全动态
相关推荐
金銀銅鐵44 分钟前
[git] 如何丢弃对一个文件的改动?
git·后端
橘子海全栈攻城狮1 小时前
【最新源码】养老院系统管理A013
java·spring boot·后端·web安全·微信小程序
smallyoung1 小时前
具有反思能力的 Agentic RAG 实战:用 LangChain4j 实现 CRAG 纠错检索
人工智能·后端
EthanYuan1 小时前
💡RAG实践:从云知识库迁移到PostgreSQL ,并使用PGVector实现向量存储
后端
直奔標竿2 小时前
Java开发者AI转型第二十六课!Spring AI 个人知识库实战(五)——联网搜索增强实战
java·开发语言·人工智能·spring boot·后端·spring
等风来_shy2 小时前
如何写好一个 Skill
后端
ailab3 小时前
研发人员如何写好 AI 提示词:从“问问题”到“驱动研发闭环”
后端
ltl3 小时前
【大模型基础设施工程】25:大模型基础设施未来
后端
ltl3 小时前
【大模型基础设施工程】二十四:成本、合规与安全
后端
ltl3 小时前
【大模型基础设施工程】22:大模型网关
后端