unable kill namenode 从解决到放弃再到解决的过程

问题描述

在学习部署hadoop的过程中,我发现一个问题,正常来说我们安装完成,会通过以下命令启动hdfs,观察是否安装成功。

sh 复制代码
start-dfs.sh

这个时候通过jps命令,就能观察到本地的namenode, secondary namenode ,datanode正在运行。

但是有那么一天,我想要用到hadoop的环境来执行spark。照例我先用jps观察了一下运行是否正常。结果发现一个异常现象。

我的环境中只有namenode和secondary namenode 但是没有datanode。

一开始我没有特别重视这个问题,寻思可能datanode挂了,我重启下就行了。结果一重启,重启出事故了。

接下来,我开始了长达三个小时的折磨之旅。

踩坑流程

据伟大的先辈们流传,以及多年来实践的经验。如果你遇到什么没见过的问题,遇事不决,重启解决。 是最高效,便捷的处理方式。

js 复制代码
stop-dfs.sh

按照正常流程,我通过以上命令,首先停掉hadoop,然后就不出所料的报错了

sh 复制代码
[hadoop@dave hadoop]$ stop-dfs.sh
Stopping namenodes on [dave]
dave: Warning: Permanently added 'dave' (ECDSA) to the list of known hosts
dave: ERROR: Unable to kill 18452
Stopping datanodes
localhost: ERROR: Unable to kill 19132
Stopping secondary namenodes [dave]
dave: ERROR: Unable to kill 19311

这种时候,我还没有慌,这都是小问题,我不知道遇到过多少次。按照,管理我将动用我的root权限,并使用kill -9将这两个进程全部杀死。然后完成我的重启大业。

但是它又报错了!这个情况是非常不合理的。

sh 复制代码
[root@dave hadoop]# kill -9 18452
bash: kill: (18452) - No such process
[root@dave hadoop]# sudo kill -9 18452
kill: sending signal to 18452 failed: No such process

root权限kill -9 这两个加起来,我能把系统给他干废了,结果一个小小的hadoop线程竟然干不掉。

而且通过ps明显看不到这两个线程。

也就是说,一个不存在的进程,阻止了我关闭hdfs! 正常来说,在windows中,我遇到这种现象,我直接重装系统了。但是linux显然不好进行这样的操作。

上次出现这种情况,还是在我的服务器被脚本入侵用来挖矿时。

我按照上次被入侵时的流程走了一遍,发现没有任何被挖矿的迹象。但是按照之前的处理方案处理了一下。

然并卵。

这个时候,我得承认,我慌了。

去网上寻求相关问题的答案,结果这个问题遇到的人非常少,然后非常不幸的是,我还看到一个哥们被干破防了。

unable kill namenode hadoop3.0.3 解决到放弃解决的过程_51CTO博客_hadoop的namenode宕机怎么解决

事实上,这个时候我也想放弃了,但是还是在网上漫无目的的找一些资料,看看datanode的进程的底层原理。当然,看的头昏脑胀也没什么解决思路。

解决方案

不过最后灵感突发,还是给各位找到了一个解决方案。原理我不是很明晰,但是确实能关闭hdfs,然后正常启动了。

参考这篇博客Hadoop 在linux上的部署全流程 - 掘金 (juejin.cn),我在末尾留下了一个解决datanode未启动问题的解决思路。

因为我没有指定hadoop 的 tmp目录,所以直接进去系统的tmp目录,这个时候你会看到只有一个namenode的pid文件,把它删除。

然后关闭dfs成功,启动df成功。完美解决,正常启动。

ps:当时没有截正常启动的图,就只有这两张图。

我现在也复现不出来这个bug,也没有理清这个解决问题的原理,不过还是希望能给各位解决这个问题提供思路。

相关推荐
大海绵啤酒肚15 分钟前
OpenStack虚拟化平台之T版搭建部署
linux·运维·云计算·openstack
ConardLi16 分钟前
Easy Dataset 已经突破 11.5K Star,这次又带来多项功能更新!
前端·javascript·后端
笨蛋少年派19 分钟前
Hive安装部署
数据仓库·hive·hadoop
芒克芒克20 分钟前
ssm框架之Spring(上)
java·后端·spring
冒泡的肥皂28 分钟前
MVCC初学demo(二
数据库·后端·mysql
追逐时光者31 分钟前
一款基于 .NET WinForm 开源、轻量且功能强大的节点编辑器,采用纯 GDI+ 绘制无任何依赖库仅仅100+Kb
后端·.net
鬼火儿35 分钟前
1.2 redis7.0.4安装与配置开机自启动
java·后端
gtr20201 小时前
Ubuntu24.04 最小化发布 需要删除的内容
linux
逻极1 小时前
Rust数据类型(上):标量类型全解析
开发语言·后端·rust
百锦再1 小时前
第2章 第一个Rust程序
java·开发语言·后端·rust·eclipse·tomcat·hibernate