Spark 平障录

Profile

Profile 是最重要的第一环。

  • 利用好 spark UI 和 yarn container log
  • 分析业务代码,对其计算代价进行预判
  • 建设基准,进行对比,比如application id 进行对比,精确到 job DAG 环节
充分利用 UI
Stage 页面

页头 summary,也很重要。

勾选所有 UI metrics,提供判断依据
task 维度 metrics
Executor 维度
application id 对比

如果两个application id, shuflfle read/write 差不多,input/output 差不多。

慢的那一个,如果内存消耗大,那说明计算量大,比如 sum, count 等

Executor 页面

选中所有 metrics,增加判断依据

注意GC

相关推荐
梦里不知身是客1114 小时前
sparkSQL读取数据的方式
spark
少废话h21 小时前
Spark 中数据读取方式详解:SparkSQL(DataFrame)与 SparkCore(RDD)方法对比及实践
大数据·sql·spark
大千AI助手21 小时前
分布式奇异值分解(SVD)详解
人工智能·分布式·spark·奇异值分解·svd·矩阵分解·分布式svd
Hello.Reader1 天前
用 Spark Shell 做交互式数据分析从入门到自包含应用
大数据·数据分析·spark
梦里不知身是客111 天前
Spark介绍
大数据·分布式·spark
uesowys3 天前
Apache Spark算法开发指导-特征转换RobustScaler
spark·特征转换·robustscaler
努力成为一个程序猿.3 天前
【问题排查】hadoop-shaded-guava依赖问题
大数据·hadoop·spark
~kiss~3 天前
spark-SQL学习
sql·学习·spark
2501_938780285 天前
《不止 MapReduce:Hadoop 与 Spark 的计算模型差异及适用场景分析》
hadoop·spark·mapreduce
2501_938773995 天前
《Hadoop 与 Spark 融合路径:基于 Spark on YARN 的部署与调优技巧》
大数据·hadoop·spark