Spark 平障录

Profile

Profile 是最重要的第一环。

  • 利用好 spark UI 和 yarn container log
  • 分析业务代码,对其计算代价进行预判
  • 建设基准,进行对比,比如application id 进行对比,精确到 job DAG 环节
充分利用 UI
Stage 页面

页头 summary,也很重要。

勾选所有 UI metrics,提供判断依据
task 维度 metrics
Executor 维度
application id 对比

如果两个application id, shuflfle read/write 差不多,input/output 差不多。

慢的那一个,如果内存消耗大,那说明计算量大,比如 sum, count 等

Executor 页面

选中所有 metrics,增加判断依据

注意GC

相关推荐
beijingliushao18 小时前
100-Spark Local模式部署
大数据·python·ajax·spark
字节跳动开源20 小时前
首届 Apache Gluten 社区年度盛会 —— GlutenCon 2025 正式启动!
大数据·spark·线下活动
larance1 天前
spark 支持hive
hive·spark
beijingliushao1 天前
99-在Linux上安装Anaconda
linux·运维·服务器·spark
Appreciate(欣赏)1 天前
Spark解析JSON字符串
大数据·spark·json
毕设源码-赖学姐1 天前
【开题答辩全过程】以 基于Spark的全球地震信息数据可视化分析平台研究为例,包含答辩的问题和答案
大数据·信息可视化·spark
B站计算机毕业设计之家2 天前
机器学习:python智能电商推荐平台 大数据 spark(Django后端+Vue3前端+协同过滤 毕业设计/实战 源码)✅
大数据·python·spark·django·推荐算法·电商
mn_kw2 天前
Spark Shuffle 深度解析与参数详解
大数据·分布式·spark
红队it2 天前
【Spark+Hive】基于Spark大数据旅游景点数据分析可视化推荐系统(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅
大数据·python·算法·数据分析·spark·django·echarts
mn_kw2 天前
Hive On Spark 统计信息收集深度解析
hive·hadoop·spark