Spark 平障录

Profile

Profile 是最重要的第一环。

  • 利用好 spark UI 和 yarn container log
  • 分析业务代码,对其计算代价进行预判
  • 建设基准,进行对比,比如application id 进行对比,精确到 job DAG 环节
充分利用 UI
Stage 页面

页头 summary,也很重要。

勾选所有 UI metrics,提供判断依据
task 维度 metrics
Executor 维度
application id 对比

如果两个application id, shuflfle read/write 差不多,input/output 差不多。

慢的那一个,如果内存消耗大,那说明计算量大,比如 sum, count 等

Executor 页面

选中所有 metrics,增加判断依据

注意GC

相关推荐
sunxunyong14 小时前
spark History Server 重启失败
大数据·分布式·spark
jerryinwuhan18 小时前
Spark数据分析1_环境配置
大数据·数据分析·spark
我要用代码向我喜欢的女孩表白21 小时前
spark介绍
大数据·分布式·spark
大大大大晴天2 天前
Hudi生产问题排障-insert overwrite 路径不存在
大数据·spark
Light602 天前
SPARK View:从“AI手工作坊”到“软件工业革命
大数据·人工智能·spark
潘达斯奈基~2 天前
Spark踩坑:如何优化pandas_udf中的多维数组传输效率
大数据·spark·pandas
最初的↘那颗心3 天前
Spark Job 调度机制拆解:从 Action 算子到 Task 执行
大数据·spark·分布式计算
尋有緣3 天前
Spark SQL 调优
大数据·sql·spark
十月南城4 天前
实时数据平台的价值链——数据采集、加工、存储、查询与消费的协同效应与ROI评估
数据库·数据仓库·hive·hadoop·spark
伟大的大威4 天前
NVIDIA DGX Spark (Blackwell GB10) 双机 196B Step 3.5 Flash 大模型部署完整实录
分布式·spark·nvidia