举例说明 如何通过SparkUI和日志定位任务莫名失败?

有一个Task OOM:

  • 通过概览信息,发现Stage 10的Task 36失败了4次导致Job失败。概览信息中显示最后一次失败的退出代码(exit code)是143 ,意味着发生了内存溢出(OOM,即Out of Memory)。

    可以点击Stage链接,查看为什么导致了Executor OOM(Out of Memory)。

  • 通过上述图片发现,大部分Task都成功了,只有一个失败了,这高度怀疑是数据倾斜问题。

    • 如果是Driver逻辑失败导致App失败(例如输入路径不存在、Driver OOM等),应直接查看Driver日志。
    • 如果Driver OOM,可能需要查看Yarn UI。
  • 通过Task日志进一步确认,发现日志中打印的这个Task拉取远程的Shuffle数据远超过上述成功的Task的最大值。明确失败原因为数据倾斜。

Driver fail

  • Driver逻辑导致失败的可能原因包括:

    • 路径没有权限
    • 读取路径为空
    • SparkContext初始化失败
    • 作业代码自己抛出异常等
  • 首先,Spark UI上没有显示失败的Job。

转而查看Driver log:

可以从Driver日志中看到访问目录没有权限:

相关推荐
hqyjzsb40 分钟前
从爱好到专业:AI初学者如何跨越CAIE认证的理想与现实鸿沟
大数据·c语言·人工智能·信息可视化·职场和发展·excel·业界资讯
袋鼠云数栈1 小时前
企业数据资产管理核心框架:L1-L5分层架构解析
大数据·人工智能·架构
zxsz_com_cn2 小时前
设备预测性维护怎么做?预测性维护案例详解
大数据·人工智能
G皮T2 小时前
【Elasticsearch】查询性能调优(四):计数的精确性探讨
大数据·elasticsearch·搜索引擎·全文检索·es·性能·opensearch
十月南城2 小时前
ES性能与可用性——分片、副本、路由与聚合的调度逻辑与成本
大数据·elasticsearch·搜索引擎
阿坤带你走近大数据2 小时前
大数据行业中,什么是拉链表?具体怎么做?
大数据
数字化顾问3 小时前
(100页PPT)未来工厂大数据应用专题建设解决方案(附下载方式)
大数据
tiannian12204 小时前
如何选择适合企业的RFID系统解决方案?
大数据·人工智能
程途拾光1584 小时前
绿色AI与低功耗推理架构
大数据·人工智能
G皮T4 小时前
【Elasticsearch】查询性能调优(三):track_total_hits 和 terminate_after 可能的冲突
大数据·elasticsearch·搜索引擎·全文检索·索引·性能·opensearch