基于今天数据处理的过程,回顾一下今天数据出现问题时,如何处理的流程(仅个人经验)。
目前我司建立的大数据平台还在建设期间,不过基于一段时间的交接,我已经对我司关于数据治理中hadoop底层有了基本的了解。
问题:上午因某一数据ods表发现数据未更新,而该表是基于Hadoop架构上进行解析-加工-治理。
解决方案:
(1)先查上游消息接入平台kafka是否有数据。
(2)确定kafka一直在接数据后,再查看hadoop三个节点状态是否挂了(通过hadoop后台工具或可视化平台查看)
(3)果然有一个因为内存过高已经挂了,所以我重新将Spark拉起来(可以直接命令行拉或者可视化页面重启)
(4)再去查看数据解析、加工。融合任务有没有挂,果然也挂了。找到该任务,去运维中心进行重启。
(5)回到hadoop后台界面查看Log日志是否有问题。
好滴,到这里就解决了。本次问题是个小问题,因为还存在dolphin的问题导致处理时间稍微长。后续需要考虑扩容并需要查看hadoop内存增长消耗过快的问题。