举例说明如何通过SparkUI和日志定位任务莫名失败？

电信中心2024-06-17 14:55

有一个Task OOM：

通过概览信息，发现Stage 10的Task 36失败了4次导致Job失败。概览信息中显示最后一次失败的退出代码（exit code）是143 ，意味着发生了内存溢出（OOM，即Out of Memory）。

可以点击Stage链接，查看为什么导致了Executor OOM（Out of Memory）。
通过上述图片发现，大部分Task都成功了，只有一个失败了，这高度怀疑是数据倾斜问题。
- 如果是Driver逻辑失败导致App失败（例如输入路径不存在、Driver OOM等），应直接查看Driver日志。
- 如果Driver OOM，可能需要查看Yarn UI。
通过Task日志进一步确认，发现日志中打印的这个Task拉取远程的Shuffle数据远超过上述成功的Task的最大值。明确失败原因为数据倾斜。

Driver fail

Driver逻辑导致失败的可能原因包括：
- 路径没有权限
- 读取路径为空
- SparkContext初始化失败
- 作业代码自己抛出异常等
首先，Spark UI上没有显示失败的Job。

转而查看Driver log：

可以从Driver日志中看到访问目录没有权限：

上一篇：Linux操作系统

下一篇：SpringCloud：Feign远程调用

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 09幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 10CC-Switch & Claude 基于 Linux 服务器安装使用指南