Spark 平障录

zhixingheyi_tian2023-11-20 22:34

Profile

Profile 是最重要的第一环。

利用好 spark UI 和 yarn container log
分析业务代码，对其计算代价进行预判
建设基准，进行对比，比如application id 进行对比，精确到 job DAG 环节

充分利用 UI

Stage 页面

页头 summary，也很重要。

勾选所有 UI metrics，提供判断依据

task 维度 metrics

Executor 维度

application id 对比

如果两个application id， shuflfle read/write 差不多，input/output 差不多。

慢的那一个，如果内存消耗大，那说明计算量大，比如 sum， count 等

Executor 页面

选中所有 metrics，增加判断依据

注意GC

上一篇：大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

下一篇：适用于全部安卓手机的 5 大免费 Android 数据恢复

热门推荐

0100 Debian字符界面如何支持中文 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）052026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 06微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026开年大模型最新对比解析及场景落地指南 10历年考研数学一、数学二、数学三真题试卷及答案PDF