cloudera manager 页面启动nodemanager失败,后端没有启动 8040

nodemanager异常失败后,cloudera manager页面启动nodemanager失败,后端没有启动8040。

问题分析:查看日志hadoop-cmf-yarn-NODEMANAGER-IT-CDH-Node36.log.out 发现

进程OOM,8042端口注册不上! nodemanager启动就会recovering application。

清理失败app缓存:

rm -rf /data*/yarn/nm/usercache/*

rm -rf /var/lib/hadoop-yarn/yarn-nm-recovery/*

删除cache之后 重启nodemanager正常。

问题分析:

1、由于这台机器上跑大任务,导致内存不足,报警写到/tmp目录下,产生很多大文件,进而导致磁盘不足!

2、nm重启会去cache里面 recovering任务,但是这些任务已经过时导致一直起不来,解决办法就是删除这些cache!!!

相关推荐
TDengine (老段)1 小时前
TDengine 时序函数 IRATE 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine
TDengine (老段)1 小时前
TDengine 时序函数 CSUM 用户手册
大数据·数据库·sql·物联网·时序数据库·iot·tdengine
京东零售技术3 小时前
京东零售胡浩:智能供应链从运筹到大模型到超级智能体的演进
大数据·人工智能
土丁爱吃大米饭7 小时前
重磅!Repo Wiki!
大数据·词法分析·语义分析·语法分析·qoder·repo wiki
问道飞鱼8 小时前
【大数据技术】ClickHouse配置详细解读
大数据·clickhouse·配置信息
ModelWhale9 小时前
喜报!和鲸科技获张江国家自主创新示范区专项发展资金支持
大数据·人工智能·科研
RoboWizard9 小时前
移动固态硬盘无法被电脑识别怎么办?
大数据·人工智能·缓存·电脑·金士顿
阿里云大数据AI技术10 小时前
云栖2025 | 阿里云自研大数据平台 ODPS 重磅升级:全面支持AI计算和服务
大数据·阿里云·odps·云栖大会
伊织code10 小时前
Elasticsearch - 分布式搜索与分析引擎
大数据·分布式·elasticsearch
董可伦11 小时前
Hadoop HA 集群安装配置
大数据·hadoop·分布式