目录
-
-
-
- [1. 集群管理接口](#1. 集群管理接口)
- [2. RDD操作中枢](#2. RDD操作中枢)
- [3. 任务分发引擎](#3. 任务分发引擎)
- [4. 执行环境配置](#4. 执行环境配置)
- [5. 性能监控枢纽](#5. 性能监控枢纽)
-
-
SparkContext是Apache Spark的核心组件,其作用可概括为以下五个关键维度:
1. 集群管理接口
-
作为与集群管理器(YARN/Mesos/Standalone)通信的唯一通道
-
负责资源申请与释放:
// 初始化示例
val conf = new SparkConf().setAppName("MyApp").setMaster("yarn")
val sc = new SparkContext(conf) -
自动处理Executor的注册、心跳检测和故障恢复
2. RDD操作中枢
- 维护RDD血缘关系(Lineage)图谱
- 执行DAG调度优化 :
- 合并窄依赖(Narrow Dependency)减少Shuffle
- 处理容错机制(Checkpointing和血缘回溯)
3. 任务分发引擎
-
将用户代码转换为TaskSet:
graph LR
UserCode --> RDD[转换操作链] --> DAGScheduler --> TaskSetManager --> Executor -
实现动态资源分配 (Dynamic Allocation):
- 空闲时自动释放Executor
- 负载高时快速扩容
4. 执行环境配置
-
管理广播变量(Broadcast Variables):
val broadcastVar = sc.broadcast(10)
-
控制累加器(Accumulators)的更新同步
-
配置序列化策略(Kryo/Java Serialization)
5. 性能监控枢纽
- 暴露Metrics接口:
- 内存使用率
- 任务执行时间分布
- 网络IO吞吐量
- 集成Spark UI可视化监控:
支持查看Stage/Task的详细执行状态
每个Spark应用程序有且仅有一个SparkContext实例 ,其生命周期与应用进程完全一致。在YARN集群模式下,SparkContext运行在ApplicationMaster进程 中,而在Standalone模式 下则直接运行在Driver节点上。