spark-operaotr

1、系统架构

括如下几个组件:

  1. SparkApplication控制器, 该控制器用于创建、更新、删除SparkApplication对象,同时控制器还会监控相应的事件,执行相应的动作;
  2. Submission Runner, 负责调用spark-submit提交Spark作业, 作业提交的流程完全复用Spark on K8s的模式;
  3. Spark Pod Monitor, 监控Spark作业相关Pod的状态,并同步到控制器中;
  4. Mutating Admission Webhook: 可选模块,基于注解来实现Driver/Executor Pod的一些定制化需求;
  5. SparkCtl: 用于和Spark Operator交互的命令行工具

Spark Operator除了实现基本的作业提交外,还支持如下特性:

  • 声明式的作业管理;
  • 支持更新SparkApplication对象后自动重新提交作业;
  • 支持可配置的重启策略;
  • 支持失败重试;
  • 集成prometheus, 可以收集和转发Spark应用级别的度量和Driver/Executor的度量到prometheus中.

2、Spark Operator 是如何管理Spark作业的

控制器的代码主要位于 pkg/controller/sparkappli cation/controller.go 中。

2.1 、提交流程

提交作业的主流程在 submitSparkApplication 方法中。

提交作业的核心逻辑在submission.go这个模块中。

参考

相关推荐
数据科学小丫2 小时前
数据分析与FineBI介绍
大数据·数据分析·finebi
ALex_zry2 小时前
Git大型仓库推送失败问题完整解决方案
大数据·git·elasticsearch
二进制coder3 小时前
Git Fork 开发全流程教程
大数据·git·elasticsearch
天硕国产存储技术站7 小时前
DualPLP 双重掉电保护赋能 天硕工业级SSD筑牢关键领域安全存储方案
大数据·人工智能·安全·固态硬盘
雷文成.思泉软件7 小时前
以ERP为核心、企微为门户,实现一体化集成
大数据·低代码·创业创新
SuperHeroWu78 小时前
【HarmonyOS 6】UIAbility跨设备连接详解(分布式软总线运用)
分布式·华为·harmonyos·鸿蒙·连接·分布式协同·跨设备链接
杜子不疼.8 小时前
【探索实战】从0到1打造分布式云原生平台:Kurator全栈实践指南
分布式·云原生
东哥说-MES|从入门到精通9 小时前
数字化部分内容 | 十四五年规划和2035年远景目标纲要(新华社正式版)
大数据·人工智能·数字化转型·mes·数字化工厂·2035·十四五规划
南飞测绘视界10 小时前
上市公司绿色专利申请、授权数据(1999-2024年)
大数据·专利·上市公司
一个天蝎座 白勺 程序猿10 小时前
KingbaseES在政务领域的应用实践——武汉人社大数据平台“数字化服务新模式”
大数据·数据库·政务·kingbasees·金仓数据库