Spark 平障录

Profile

Profile 是最重要的第一环。

  • 利用好 spark UI 和 yarn container log
  • 分析业务代码,对其计算代价进行预判
  • 建设基准,进行对比,比如application id 进行对比,精确到 job DAG 环节
充分利用 UI
Stage 页面

页头 summary,也很重要。

勾选所有 UI metrics,提供判断依据
task 维度 metrics
Executor 维度
application id 对比

如果两个application id, shuflfle read/write 差不多,input/output 差不多。

慢的那一个,如果内存消耗大,那说明计算量大,比如 sum, count 等

Executor 页面

选中所有 metrics,增加判断依据

注意GC

相关推荐
我要用代码向我喜欢的女孩表白1 天前
在spark集群上在部署一套spark环境,不要影响过去环境
大数据·分布式·spark
新缸中之脑1 天前
Meta新模型Muse Spark上手体验
大数据·分布式·spark
Thomas21431 天前
pyspark 新接口 DataSource V2 写法 写入paimon为例
大数据·分布式·spark
howard20052 天前
2.2.3.1 搭建Spark集群
spark·standalone集群
isNotNullX2 天前
数据仓库是什么?怎么搭建数据仓库?
大数据·分布式·spark
AI自动化工坊5 天前
Meta Muse Spark技术深度解析:原生多模态推理架构实践指南
大数据·人工智能·架构·spark
talen_hx2965 天前
《零基础入门Spark》学习笔记 Day 15
大数据·笔记·学习·spark
talen_hx2965 天前
《零基础入门Spark》学习笔记 Day 14
大数据·笔记·学习·spark
xiaoyaohou115 天前
025、分布式计算实战:Spark Core与Spark SQL
sql·ajax·spark
xiaoyaohou115 天前
024、大数据技术栈概览:Hadoop、Spark与Flink
大数据·hadoop·spark