hadoop分布式中某个节点报错的解决案例

前言

在分布式节点中，发现有个节点显示不可用状态，因此需要紧急修复。

hadoop版本

目前这套集群hadoop的版本如下：

集群报错详细日志：

1/1 local-dirs are bad: /kkb/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/tempDatas/nm-local-dir; 1/1 log-dirs are b

报错分析

通过分析发现，应该是这个节点的磁盘空间满了。

这条错误信息指出 Hadoop 集群的 NodeManager 无法写入其配置的本地目录和日志目录。这通常发生在 Hadoop 集群启动时，NodeManager 尝试初始化时。错误的原因是指定的本地目录 (`local-dirs`) 和日志目录 (`log-dirs`) 不可用或不可写。

可能的原因包括：

**目录不存在**：配置的路径可能不存在。
**权限问题**：运行 Hadoop 的用户可能没有权限写入这些目录。
**磁盘空间不足**：指定的磁盘可能已满。
**SELinux 策略**：如果你的系统使用 SELinux，可能需要调整安全上下文。
**目录损坏**：文件系统损坏或目录结构损坏。

解决步骤：

```sh

ls -ld /kkb/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/tempDatas/nm-local-dir

ls -ld /kkb/install/hadoop-2.6.0-cdh5.14.2/logs/userlogs

```

如果目录不存在，你需要手动创建它们：

```sh

mkdir -p /kkb/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/tempDatas/nm-local-dir

mkdir -p /kkb/install/hadoop-2.6.0-cdh5.14.2/logs/userlogs

```

**检查权限**：

确保运行 Hadoop 的用户（例如 `hadoop` 用户）对这些目录具有写权限：

```sh

chown -R hadoop:hadoop /kkb/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/tempDatas/

chown -R hadoop:hadoop /kkb/install/hadoop-2.6.0-cdh5.14.2/logs/

```

**检查磁盘空间**：

使用 `df -h` 检查磁盘空间是否已满。

**调整 SELinux**：

如果你的系统使用 SELinux，可能需要调整策略或更改目录的安全上下文：

```sh

chcon -R -t hadoop_var_lib_t /kkb/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/tempDatas/

chcon -R -t hadoop_log_t /kkb/install/hadoop-2.6.0-cdh5.14.2/logs/

```

**检查 Hadoop 配置**：

确保 `hdfs-site.xml` 和 `core-site.xml` 中配置的本地目录和日志目录路径正确无误。

**格式化 NameNode（如果必要）**：

如果 NameNode 损坏，可能需要格式化。但这将删除所有 HDFS 数据，因此只有在安全模式或测试环境中才考虑执行此操作。

**重启 Hadoop 服务**：

在解决了目录问题后，尝试重启 Hadoop 服务，特别是 NodeManager。

**查看日志文件**：

检查 Hadoop 的日志文件，特别是 `hadoop-*.log` 文件，以获取更多错误信息。

**联系管理员**：

如果你没有足够的权限或不熟悉系统，联系系统管理员来帮助解决问题。

请在进行任何重要更改之前备份重要数据，并确保你具有足够的系统管理知识或获得专业帮助。

通过50070端口进去发现确实是因为节点01的空间即将耗尽。

hadoop分布式中某个 节点报错的解决案例

前言

hadoop版本

集群报错详细日志：

1/1 local-dirs are bad: /kkb/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/tempDatas/nm-local-dir; 1/1 log-dirs are b

报错分析

可能的原因包括：

解决步骤：

hadoop分布式中某个节点报错的解决案例