如何基于现有平台处理hadoop挂了的情况？

瓦中空花2026-03-11 22:21

基于今天数据处理的过程，回顾一下今天数据出现问题时，如何处理的流程（仅个人经验）。

目前我司建立的大数据平台还在建设期间，不过基于一段时间的交接，我已经对我司关于数据治理中hadoop底层有了基本的了解。

问题：上午因某一数据ods表发现数据未更新，而该表是基于Hadoop架构上进行解析-加工-治理。

解决方案：

（1）先查上游消息接入平台kafka是否有数据。

（2）确定kafka一直在接数据后，再查看hadoop三个节点状态是否挂了（通过hadoop后台工具或可视化平台查看）

（3）果然有一个因为内存过高已经挂了，所以我重新将Spark拉起来（可以直接命令行拉或者可视化页面重启）

（4）再去查看数据解析、加工。融合任务有没有挂，果然也挂了。找到该任务，去运维中心进行重启。

（5）回到hadoop后台界面查看Log日志是否有问题。

好滴，到这里就解决了。本次问题是个小问题，因为还存在dolphin的问题导致处理时间稍微长。后续需要考虑扩容并需要查看hadoop内存增长消耗过快的问题。