Spark 之 HistoryServer and FsHistoryProvider

HistoryServer

a inner join with one empty side and one large side, the plan would finish and the large side is still running.

Spark HistoryServer 3.4 以后修复了这个问题

JsonProtocol

JsonProtocol 类为 HistoryServer 提供解析 eventLog 的基本工具类库。

other 选项为其提供了 基本反射功能,可以解决各类 event 事件

FsHistoryProvider

  override def start(): Unit = {
    initThread = initialize()
  }

  private[history] def initialize(): Thread = {
    if (!isFsInSafeMode()) {
      startPolling()
      null
    } else {
      startSafeModeCheckThread(None)
    }
  }
相关推荐
lisacumt1 小时前
【spark】pycharm 内使用pyspark连接有kerberos集群执行sql
python·pycharm·spark
心死翼未伤1 小时前
python从入门到精通:pyspark实战分析
开发语言·数据结构·python·spark·json
PersistJiao9 小时前
Spark RDD sortBy算子执行时进行数据 “采样”是什么意思?
spark·sortby·rangepartition
goTsHgo10 小时前
在Spark Streaming中简单实现实时用户画像系统
大数据·分布式·spark
PersistJiao11 小时前
Spark RDD(弹性分布式数据集)的深度理解
大数据·分布式·spark·rdd
那一抹阳光多灿烂11 小时前
Spark核心组件解析:Executor、RDD与缓存优化
hadoop·spark
闲人编程11 小时前
Spark使用过程中的 15 个常见问题、详细解决方案
python·ajax·spark·解决方案·调度·作业
唯余木叶下弦声15 小时前
PySpark3:pyspark.sql.functions常见的60个函数
python·spark·pyspark
新知图书15 小时前
Spark SQL大数据分析快速上手-完全分布模式安装
大数据·服务器·spark
PersistJiao21 小时前
Spark 中的 Shuffle 是分布式数据交换的核心流程,从源码角度分析 Shuffle 的执行路径
大数据·分布式·spark·shuffle