Hadoop的运行模式

对许2025-03-10 16:14

Hadoop有三种可以运行的模式：本地运行模式、伪分布式运行模式和完全分布式运行模式

本地运行模式无需任何守护进程，单机运行，所有的程序都运行在同一个JVM上执行

Hadoop安装后默认为本地模式，数据存储在Linux本地。在本地模式下调试MapReduce程序非常高效方便，一般该模式主要是在学习或者开发阶段调试使用，例如，演示一下官方案例

Hadoop守护进程运行在本地机器上，模拟一个小规模的集群，数据存储在HDFS集群上；换句话说，可以配置一台机器的Hadoop集群，伪分布式是完全分布式的一个特例

Hadoop守护进程运行在一个集群上，即多台机器上分别启动Hadoop集群，数据存在HDFS集群上，这种运行模式也就是我们常见的各种云，主要用于大规模的生产环境中

三种运行模式的区别比较如下：

项目	本地模式	伪分布式模式	完全分布式模式
`fs.defaultFs`	`file:///`	`hdfs://namenode/`	`hdfs://namenode/`
机器数量	1	1	N
守护进程	/	`start-dfs.sh`、`start-yarn.sh`等	`start-dfs.sh`、`start-yarn.sh`等
数据存储与输出	Linux本地	HDFS集群	HDFS集群

分布式模式需要启动一些守护进程，即在使用分布式Hadoop时，要先启动一些准备程序（HDFS和YARN守护进程），然后才能使用；而在本地模式下，不需要启动这些守护进程，将使用本地文件系统和本地MapReduce运行器