Spark 平障录

Profile

Profile 是最重要的第一环。

  • 利用好 spark UI 和 yarn container log
  • 分析业务代码,对其计算代价进行预判
  • 建设基准,进行对比,比如application id 进行对比,精确到 job DAG 环节
充分利用 UI
Stage 页面

页头 summary,也很重要。

勾选所有 UI metrics,提供判断依据
task 维度 metrics
Executor 维度
application id 对比

如果两个application id, shuflfle read/write 差不多,input/output 差不多。

慢的那一个,如果内存消耗大,那说明计算量大,比如 sum, count 等

Executor 页面

选中所有 metrics,增加判断依据

注意GC

相关推荐
Hello.Reader2 小时前
Spark Connect 快速入门远程连接 Spark 集群实战
javascript·ajax·spark
Hello.Reader5 小时前
Pandas API on Spark 快速入门像写 Pandas 一样使用 Spark
大数据·spark·pandas
talen_hx2961 天前
《零基础入门Spark》学习笔记 Day 06
笔记·学习·spark
D愿你归来仍是少年1 天前
Apache Spark 第 8 章:Structured Streaming 流处理
大数据·spark·apache
hf2000122 天前
零成本迁移,原地加速,成本降低60%:火花思维基于云器Lakehouse升级实践
大数据·分布式·spark·lakehouse
talen_hx2962 天前
《零基础入门Spark》学习笔记 Day 04
大数据·笔记·学习·spark
D愿你归来仍是少年2 天前
Apache Spark 详细讲解第 7 章:Shuffle 机制深度解析
大数据·spark·apache
Code知行合壹3 天前
Spark使用总结
大数据·分布式·spark
zhojiew3 天前
[INFRA] EMR集群中Hive和Spark集成Glue Data Catalog过程的深入分析
hive·hadoop·spark·aws·bigdata
鸿乃江边鸟4 天前
Spark DynamicJoinSelection 规则根据AQE统计信息动态调整Join策略
大数据·spark