Spark详解

原理架构图

核心概念

  1. Driver: 一个应用只有一个Driver单节点 ,有任务队列,单线程串行执行 提交任务。但是一个集群可以有多个应用,实现应用级别的并发。向cluster Mannager申请执行节点资源,划分任务Stage,并整合worker结果
  2. Cluster Mannager: 资源管理器,接受Driver请求,按需启动Worker节点,不同模式启动时机不同。
  3. Worker: Worker启动后,注册给Driver,并接受执行Driver分发的任务,结果返回Driver,worker之间并行执行

Worker启动时机

收Cluster Mannager模式控制

  1. Standalone模式: 刚开始Worker就全部启动
  2. YARN模式: 动态按需
  3. K8s模式: 完全动态
相关推荐
weixin_3875342210 分钟前
Ownership - Rust Hardcore Head to Toe
开发语言·后端·算法·rust
前端付豪15 分钟前
实现一个用户可以有多个会话
前端·后端·llm
若水不如远方37 分钟前
分布式一致性(六):拥抱可用性 —— 最终一致性与 Gossip 协议
分布式·后端·算法
lianghanwu199940 分钟前
深入解析 Apache Kafka:从核心原理到实战进阶指南
后端
想不到一个好的ID41 分钟前
Claude Code 初学者必看指南
前端·后端
我爱娃哈哈1 小时前
SpringBoot + Redis Stream + 消费组:替代 Kafka 轻量级消息队列,低延迟高吞吐
后端
程序员大飞哥1 小时前
MPTCP 协议全景:从 RFC 6824 到 RFC 8684 的演进
后端
程序员大飞哥1 小时前
MPTCP 握手全解剖:一条连接是如何"长出"多条腿的
后端
凛訫訫1 小时前
Java基础--面向对象高级(2)
后端
悟空码字1 小时前
滑块拼图验证:SpringBoot完整实现+轨迹验证+Redis分布式方案
java·spring boot·后端