Spark的Web界面

在顶部导航栏上,可以点击以下选项来查看不同类型的Spark应用信息:

  1. Jobs - 此视图将列出所有已提交的作业,并提供每个作业的详细信息,如作业ID、名称、开始时间、结束时间等。
  2. Stages - 此视图可以查看作业分解成的不同阶段,包括每个阶段的任务数、当前状态等。
  3. Storage - 此视图展示了数据如何在RDDs(弹性分布式数据集)之间进行分层存储,以及它们的缓存状态。
  4. Environment - 此视图列出了与Spark应用程序相关的环境变量和配置参数。
  5. Executors - 此视图提供了关于执行器的详细信息,包括内存使用情况、磁盘使用情况、任务统计等。

Apache Spark UI中的"Executors"页面,该页面提供了关于Spark应用程序中执行器的详细信息。执行器是Spark应用程序中负责执行任务的进程。以下是页面上各部分的介绍:

Summary

  • RDD Blocks: 当前存储在执行器上的RDD块数量。
  • Storage Memory: 执行器上用于存储的内存总量,以及当前已使用的存储内存。
  • Disk Used: 执行器上用于存储的磁盘空间总量,以及当前已使用的磁盘空间。
  • Cores: 执行器上可用的CPU核心数。
  • Active Tasks: 当前正在执行的任务数量。
  • Failed Tasks: 已经失败的任务数量。
  • Complete Tasks: 已经完成的任务数量。
  • Total Tasks: 执行器上总共处理的任务数量。
  • Task Time (GC Time): 执行器上所有任务的总执行时间,以及其中的垃圾回收时间。
  • Input: 任务处理的输入数据量。
  • Shuffle Read: 任务执行期间从其他执行器读取的shuffle数据量。
  • Shuffle Write: 任务执行期间写入的shuffle数据量。
  • Excluded: 被排除的执行器数量。

Executors

  • Executor ID: 执行器的唯一标识符。
  • Address: 执行器的网络地址。
  • Status: 执行器的状态,如Active(活跃)或Dead(已死)。
  • RDD Blocks: 执行器上存储的RDD块数量。
  • Storage Memory: 执行器上用于存储的内存总量,以及当前已使用的存储内存。
  • Disk Used: 执行器上用于存储的磁盘空间总量,以及当前已使用的磁盘空间。
  • Cores: 执行器上可用的CPU核心数。
  • Active Tasks: 当前正在执行的任务数量。
  • Failed Tasks: 已经失败的任务数量。
  • Complete Tasks: 已经完成的任务数量。
  • Total Tasks: 执行器上总共处理的任务数量。
  • Task Time (GC Time): 执行器上所有任务的总执行时间,以及其中的垃圾回收时间。
  • Input: 任务处理的输入数据量。
  • Shuffle Read : 任务执行期间从其他执行器读取的shuffle数据量。
  • Shuffle Write: 任务执行期间写入的shuffle数据量。
  • Thread Dump: 提供执行器的线程转储链接。
  • Heap Histogram: 提供执行器的堆内存使用情况的直方图链接。
  • Add Time: 执行器被添加到集群的时间。
  • Remove Time: 执行器从集群中移除的时间。

这个页面对于监控和调试Spark应用程序非常有用,因为它提供了关于执行器资源使用情况、任务状态和性能的详细信息。

相关推荐
uesowys9 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
鹏说大数据17 小时前
Spark 和 Hive 的关系与区别
大数据·hive·spark
B站计算机毕业设计超人17 小时前
计算机毕业设计Hadoop+Spark+Hive招聘推荐系统 招聘大数据分析 大数据毕业设计(源码+文档+PPT+ 讲解)
大数据·hive·hadoop·python·spark·毕业设计·课程设计
B站计算机毕业设计超人17 小时前
计算机毕业设计hadoop+spark+hive交通拥堵预测 交通流量预测 智慧城市交通大数据 交通客流量分析(源码+LW文档+PPT+讲解视频)
大数据·hive·hadoop·python·spark·毕业设计·课程设计
Lansonli1 天前
大数据Spark(八十):Action行动算子fold和aggregate使用案例
大数据·分布式·spark
鸿乃江边鸟2 天前
Spark Datafusion Comet 向量化Rust Native--CometShuffleExchangeExec怎么控制读写
大数据·rust·spark·native
伟大的大威3 天前
NVIDIA DGX Spark (ARM64/Blackwell) Kubernetes 集群 + GPU Operator 完整部署指南
大数据·spark·kubernetes
小邓睡不饱耶3 天前
深度实战:Spark GraphX构建用户信任网络,精准锁定高价值目标用户(含完整案例)
大数据·spark·php
B站计算机毕业设计超人3 天前
计算机毕业设计hadoop+spark+hive共享单车预测系统 共享单车数据可视化分析 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·python·深度学习·spark·毕业设计·课程设计
B站计算机毕业设计超人3 天前
计算机毕业设计Python+Spark+Hadoop+Hive微博舆情分析 微博情感分析可视化 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·爬虫·python·spark·cnn·课程设计