Spark 平障录

Profile

Profile 是最重要的第一环。

  • 利用好 spark UI 和 yarn container log
  • 分析业务代码,对其计算代价进行预判
  • 建设基准,进行对比,比如application id 进行对比,精确到 job DAG 环节
充分利用 UI
Stage 页面

页头 summary,也很重要。

勾选所有 UI metrics,提供判断依据
task 维度 metrics
Executor 维度
application id 对比

如果两个application id, shuflfle read/write 差不多,input/output 差不多。

慢的那一个,如果内存消耗大,那说明计算量大,比如 sum, count 等

Executor 页面

选中所有 metrics,增加判断依据

注意GC

相关推荐
浊酒南街3 小时前
SUBSTRING_INDEX 函数介绍
sql·spark
鸿乃江边鸟4 小时前
Spark datafusion comet向量化插件CometPlugin
大数据·spark·native
oMcLin6 小时前
如何在 Debian 11 上通过构建大数据湖,使用 Apache Spark 加速电商平台的数据分析与实时推荐引擎
spark·debian·apache
Lansonli8 小时前
大数据Spark(七十六):Action行动算子reduce和take、takeSample使用案例
大数据·分布式·spark
鸿乃江边鸟9 小时前
Apache Arrow的零拷贝是指什么
spark·零拷贝·native·arrow
Light601 天前
智链护航,数档永存:基于领码SPARK平台构建下一代AI+区块链档案系统解决方案
人工智能·spark·区块链
鸿乃江边鸟1 天前
Spark native向量化组件 datafusion comet
大数据·spark·native·向量化
yumgpkpm2 天前
Cloudera CDH、CDP、Hadoop大数据+决策模型及其案例
大数据·hive·hadoop·分布式·spark·kafka·cloudera
num_killer2 天前
小白的Spark初识(RDD)
大数据·分布式·spark
红队it2 天前
【Spark+Hadoop】基于spark+hadoop游戏评论数据分析可视化大屏(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅
大数据·hadoop·分布式·算法·游戏·数据分析·spark