Spark 平障录

Profile

Profile 是最重要的第一环。

  • 利用好 spark UI 和 yarn container log
  • 分析业务代码,对其计算代价进行预判
  • 建设基准,进行对比,比如application id 进行对比,精确到 job DAG 环节
充分利用 UI
Stage 页面

页头 summary,也很重要。

勾选所有 UI metrics,提供判断依据
task 维度 metrics
Executor 维度
application id 对比

如果两个application id, shuflfle read/write 差不多,input/output 差不多。

慢的那一个,如果内存消耗大,那说明计算量大,比如 sum, count 等

Executor 页面

选中所有 metrics,增加判断依据

注意GC

相关推荐
华子w9089258596 小时前
基于 Python Django 和 Spark 的电力能耗数据分析系统设计与实现7000字论文实现
python·spark·django
小新学习屋10 小时前
Spark从入门到熟悉(篇三)
大数据·分布式·spark
Aurora_NeAr1 天前
Spark SQL架构及高级用法
大数据·后端·spark
百度Geek说2 天前
搜索数据建设系列之数据架构重构
数据仓库·重构·架构·spark·dubbo
大数据CLUB3 天前
基于spark的航班价格分析预测及可视化
大数据·hadoop·分布式·数据分析·spark·数据可视化
小新学习屋3 天前
Spark从入门到熟悉(篇一)
大数据·分布式·spark
Cachel wood12 天前
Spark教程6:Spark 底层执行原理详解
大数据·数据库·分布式·计算机网络·spark
大数据CLUB12 天前
基于pyspark的北京历史天气数据分析及可视化_离线
大数据·hadoop·数据挖掘·数据分析·spark
Cachel wood13 天前
Spark教程1:Spark基础介绍
大数据·数据库·数据仓库·分布式·计算机网络·spark