Hadoop容错机制详解

Hadoop NameNode 高可用（High Availability, HA）通过 Active-Standby 架构 和 自动故障切换（Failover） 解决单点故障问题，确保 NameNode 服务持续可用。以下是其详细过程：

1. HA 核心组件

Active NameNode：处理所有客户端请求（元数据读写、块位置查询等）。
Standby NameNode：实时同步 Active NameNode 的元数据，随时准备接管服务。
JournalNode 集群（JNs） ：轻量级分布式服务（通常 3 或 5 个节点），负责存储和管理 EditLog（元数据操作日志）。
ZooKeeper 集群（ZK）：协调故障检测与切换，管理 NameNode 的 Active 状态。
共享存储（Shared Storage）：通过 JournalNode 实现 EditLog 的共享（替代传统 HA 中的 NFS）。

2. HA 工作流程

(1) 元数据同步（EditLog 共享）

写入 EditLog
Active NameNode 将元数据操作（如创建、删除文件）写入 EditLog，并同步到多个 JournalNode（需大多数节点确认，例如 3 节点中至少 2 个确认）。
Standby 读取 EditLog
Standby NameNode 定期从 JournalNode 读取最新的 EditLog，并合并到本地的 FsImage（文件系统镜像），保持与 Active 的元数据一致。

(2) 故障检测与切换

心跳机制
Active NameNode 定期通过 ZooKeeper 发送心跳信号（称为 ZKFC，ZooKeeper Failover Controller）。
故障判定
若 ZKFC 在超时时间内未收到心跳（默认 5 秒），ZooKeeper 认为 Active NameNode 失效，触发自动故障切换。
选举新 Active
ZooKeeper 通过分布式锁机制选举新的 Active NameNode：
1. Standby NameNode 检查当前是否持有锁（即是否有权成为 Active）。
2. 若原 Active 失效，Standby 获取锁并升级为 Active。
3. 新 Active 接管服务，更新元数据并通知 DataNode。

(3) DataNode 块报告

DataNode 同时向 Active 和 Standby NameNode 发送块位置报告（Block Report），确保两者均掌握数据块分布。
在故障切换后，新 Active NameNode 无需等待 DataNode 重新上报，可直接处理请求。

3. 自动故障切换（Failover）的详细步骤

检测故障
- ZooKeeper 发现 Active NameNode 心跳超时。
- ZKFC 触发健康检查（如 NameNode 进程是否存活、网络是否可达）。
隔离原 Active（Fencing）
- 防止原 Active NameNode 恢复后产生"脑裂"（Split Brain），强制终止其进程或断开网络。
- 常见隔离机制：SSH 远程杀死进程、调用脚本禁用网络端口。
元数据状态确认
- 确保 Standby NameNode 的元数据是最新的（通过 JournalNode 确认 EditLog 完全同步）。
切换为 Active
- Standby NameNode 升级为 Active，接管客户端请求。
- 更新 ZooKeeper 中的 Active 状态标识。
客户端重定向
- 客户端通过重试机制或配置的 HA 代理（如 HDFS HA 的逻辑 URI）自动连接到新 Active NameNode。

4. 手动切换（Graceful Failover）

运维人员可通过命令手动触发 Active/Standby 切换（如集群维护场景）：
bash 复制代码
```
hdfs haadmin -transitionToActive --forcemanual <namenode_id>
```
手动切换前需确保元数据已完全同步。

5. 关键配置

hdfs-site.xml

xml 复制代码

<!-- 启用 HA -->
<property>
  <name>dfs.nameservices</name>
  <value>mycluster</value>
</property>
<!-- 定义 NameNode ID -->
<property>
  <name>dfs.ha.namenodes.mycluster</name>
  <value>nn1,nn2</value>
</property>
<!-- JournalNode 地址 -->
<property>
  <name>dfs.namenode.shared.edits.dir</name>
  <value>qjournal://jn1:8485;jn2:8485;jn3:8485/mycluster</value>
</property>
<!-- 故障切换代理类 -->
<property>
  <name>dfs.client.failover.proxy.provider.mycluster</name>
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>

core-site.xml

xml 复制代码

<!-- 使用逻辑 URI 访问 HDFS（隐藏物理 NameNode 地址） -->
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://mycluster</value>
</property>

6. 注意事项

JournalNode 高可用：至少部署 3 个 JournalNode（容忍 1 个节点故障）或 5 个（容忍 2 个故障）。
隔离机制（Fencing）：必须配置可靠的隔离策略，避免脑裂问题。
监控与告警：监控 ZooKeeper、JournalNode 和 NameNode 的健康状态，及时发现潜在故障。

7. HA 架构的优势

零停机时间 ：故障切换通常在 数十秒内 完成，客户端无感知。
数据一致性：通过 JournalNode 保障元数据的强一致性。
无缝扩展：支持滚动升级（Rolling Upgrade）和在线维护。

NameNode HA 是 Hadoop 2.x 及后续版本的核心特性，显著提升了 HDFS 的可靠性，适用于对服务连续性要求严苛的生产环境。