Hadoop 三种核心运行模式（伪分布式/分布式/混合模式）全总结

以下从核心定义、进程分布、配置特征、优缺点、适用场景五个维度，清晰梳理 Hadoop 伪分布式、纯分布式、混合模式的核心差异，方便你快速理解和选择：

一、核心模式对比表

|------------|---------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------|
| 维度 | 伪分布式模式（单节点） | 纯分布式模式（多节点） | 混合模式（伪分布式+分布式） |
| 核心定义 | 仅 master 节点运行所有 Hadoop 进程，slave 不参与 | master 仅运行管控进程，slave 运行工作进程 | master 既运行管控进程也运行工作进程，slave 正常运行工作进程 |
| 进程分布 | master：NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager slave1/slave2：无任何 Hadoop 进程 | master：NameNode、SecondaryNameNode、ResourceManager slave1/slave2：DataNode、NodeManager | master：NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager slave1/slave2：DataNode、NodeManager |
| 核心配置特征 | 1. slaves 文件仅含 localhost 2. core-site.xml 指向 hdfs://localhost:9000 3. hdfs-site.xml 副本数=1 | 1. slaves 文件含 slave1/slave2（无 localhost） 2. core-site.xml 指向 hdfs://master:9000 3. hdfs-site.xml 副本数≥2 | 1. slaves 文件含 localhost/slave1/slave2 2. core-site.xml 指向 hdfs://master:9000 3. hdfs-site.xml 副本数≥2 |
| 优点 | 1. 配置最简单，仅需单节点 2. 无需管理多节点，入门成本低 3. 所有操作在 master 完成 | 1. 主从分离，master 负载低、稳定性高 2. 充分利用 slave 节点资源，贴近生产环境 3. 集群可横向扩展（新增 slave） | 1. 充分利用 master 资源，不浪费节点能力 2. 兼具单节点操作便捷性和多节点分布式能力 3. 学习时可同时理解主/从角色 |
| 缺点 | 1. 仅单节点，无分布式特性 2. master 负载极高，易内存不足 3. 无法体验真实分布式存储/计算 | 1. 配置稍复杂，需管理多节点 2. master 资源未被充分利用 3. 操作需跨节点验证 | 1. master 负载高（既管控又干活） 2. 大规模集群下稳定性不如纯分布式 3. master 故障会导致集群完全不可用 |
| 适用场景 | 1. 零基础入门，熟悉 Hadoop 基本命令 2. 单节点功能测试 3. 资源有限（仅 1 台虚拟机） | 1. 学习分布式集群核心原理 2. 模拟生产环境测试 3. 多节点资源利用、集群扩展练习 | 1. 入门进阶（想同时理解主/从角色） 2. 小规模测试（节点少，充分利用所有资源） 3. 兼顾操作便捷性和分布式体验 |

二、核心关键点总结

1. 模式切换的核心逻辑

伪分布式 → 纯分布式：修改 slaves 移除 localhost、保留 slave1/slave2，副本数≥2；
纯分布式 → 混合模式：slaves 新增 localhost，master 会自动启动 DataNode/NodeManager；
所有模式切换前需停止集群 + 重新格式化 NameNode（清空旧元数据）。

2. 选择建议

新手入门首选「伪分布式」：先掌握 Hadoop 基础命令和单节点运行逻辑，再进阶；
学习分布式原理首选「纯分布式」：理解主从分工、数据多副本存储、任务分布式调度；
小规模测试首选「混合模式」：节点少（3 个以内）时，充分利用所有节点资源，操作也便捷。

3. 通用验证标准

无论哪种模式，启动后需满足：

伪分布式：master jps 能看到所有 5 个核心进程（NameNode/DataNode/SecondaryNameNode/ResourceManager/NodeManager）；
纯分布式：master 有管控进程、slave 有工作进程；
混合模式：master 有所有进程、slave 有工作进程；
所有模式均可通过 hdfs dfs -put/get 验证 HDFS 功能，通过 yarn node -list 验证 YARN 节点在线。

三、一句话快速区分

伪分布式：master 一个节点「全包揽」，slave 歇着；
纯分布式：master 只「指挥」，slave 只「干活」；
混合模式：master 既「指挥」又「干活」，slave 也「干活」。

三种模式本质是「进程分布」和「节点分工」的差异，核心配置都围绕 slaves 文件、core-site.xml（地址）、hdfs-site.xml（副本数）这三个关键点调整，根据你的学习阶段选择即可。