如何基于现有平台处理hadoop挂了的情况?

基于今天数据处理的过程,回顾一下今天数据出现问题时,如何处理的流程(仅个人经验)。

目前我司建立的大数据平台还在建设期间,不过基于一段时间的交接,我已经对我司关于数据治理中hadoop底层有了基本的了解。

问题:上午因某一数据ods表发现数据未更新,而该表是基于Hadoop架构上进行解析-加工-治理。

解决方案:

(1)先查上游消息接入平台kafka是否有数据。

(2)确定kafka一直在接数据后,再查看hadoop三个节点状态是否挂了(通过hadoop后台工具或可视化平台查看)

(3)果然有一个因为内存过高已经挂了,所以我重新将Spark拉起来(可以直接命令行拉或者可视化页面重启)

(4)再去查看数据解析、加工。融合任务有没有挂,果然也挂了。找到该任务,去运维中心进行重启。

(5)回到hadoop后台界面查看Log日志是否有问题。

好滴,到这里就解决了。本次问题是个小问题,因为还存在dolphin的问题导致处理时间稍微长。后续需要考虑扩容并需要查看hadoop内存增长消耗过快的问题。

相关推荐
搞科研的小刘选手9 小时前
【 IEEE出版 】第七届大数据、人工智能与软件工程国际学术会议(ICBASE 2026)
大数据·人工智能·深度学习·机器学习·软件工程·软件开发·电子信息
科技小花9 小时前
测评|2026五大数据治理平台横向对比:谁在定义数据中台的“智能引擎”?
大数据·数据库·人工智能·数据治理·数据中台
pengyi8710159 小时前
IP被封禁应急处理,动态IP池快速更换入门
大数据·网络·网络协议·tcp/ip·智能路由器
xw-busy-code9 小时前
文档协同设计
大数据·elasticsearch·搜索引擎
狂奔蜗牛飙车9 小时前
大数据赛项(中职组)-VMware+Ubuntu环境安装
大数据·vmware安装·大数据应用与服务·大数据入门指南·中职组大数据应用及服务赛项·ubuntu系统安装及基础配置·虚拟机创建及配置
cl131413149 小时前
烟气测量格恩朗流量计选型指南
大数据·网络·人工智能·产品运营
xixixi777779 小时前
国内首家“AI+量子”实体公司成立:量智开物发布“追风”“扁鹊”,开启下一代计算文明大门
大数据·网络·人工智能·安全·ai·科大讯飞·量子计算
BizViewStudio9 小时前
甄选2026:AI重构新媒体代运营行业的三大核心变革与落地路径
大数据·人工智能·新媒体运营·媒体
卷毛的技术笔记9 小时前
从零到一:深入浅出分布式锁原理与Spring Boot实战(Redis + ZooKeeper)
java·spring boot·redis·分布式·后端·面试·java-zookeeper
weixin_307779139 小时前
SparkPySetup:基于Python的Windows 11 PySpark环境自动化搭建工具
大数据·开发语言·python·spark