Spark 平障录

Profile

Profile 是最重要的第一环。

  • 利用好 spark UI 和 yarn container log
  • 分析业务代码,对其计算代价进行预判
  • 建设基准,进行对比,比如application id 进行对比,精确到 job DAG 环节
充分利用 UI
Stage 页面

页头 summary,也很重要。

勾选所有 UI metrics,提供判断依据
task 维度 metrics
Executor 维度
application id 对比

如果两个application id, shuflfle read/write 差不多,input/output 差不多。

慢的那一个,如果内存消耗大,那说明计算量大,比如 sum, count 等

Executor 页面

选中所有 metrics,增加判断依据

注意GC

相关推荐
计算机毕业编程指导师4 小时前
【Python大数据选题】基于Spark+Django的电影评分人气数据可视化分析系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习
大数据·hadoop·python·计算机·spark·django·电影评分人气
AI_56785 小时前
从“内存溢出”到“稳定运行”——Spark OOM的终极解决方案
人工智能·spark
B站计算机毕业设计之家18 小时前
基于大数据热门旅游景点数据分析可视化平台 数据大屏 Flask框架 Echarts可视化大屏
大数据·爬虫·python·机器学习·数据分析·spark·旅游
ha_lydms1 天前
Spark函数
大数据·分布式·spark
淡定一生23331 天前
数据仓库基本概念
大数据·数据仓库·spark
Lansonli1 天前
大数据Spark(七十五):Action行动算子foreachpartition和count使用案例
大数据·分布式·spark
青云交2 天前
Java 大视界 -- Java 大数据在智能教育学习成果评估体系完善与教育质量提升中的深度应用(434)
java·hive·spark·智能教育·学习成果评估·教育质量提升·实时评估
howard20052 天前
Spark实战:在GraphX中创建和计算图
spark·graphx
阿里云大数据AI技术3 天前
活动报名 | Apache Spark Meetup · 上海站,助力企业构建高效数据平台
spark