本文介绍在Linux上搭建安装Hadoop 伪分布式环境。前面我们介绍了CentOS 安装Hadoop 单机版[Hadoop 3 学习笔记],和单机模式类似，伪分布式模式也运行在单台机器上，是一个假的Hadoop运行环境。由于伪分布式也只需要一台服务器，它不具备计算能力的可扩展性和软硬件的故障容忍性，所以依然不适合用户生产环境使用。

Hadoop伪分布式模式介绍

伪分布模式是指运行在一台主机上，使用多个Java进程模仿完全分布式模式运行中的各类节点。它的优点是通过模拟，伪分布模式具备完全分布式模式的主要功能，并且硬件资源要求低；它的缺点是没有故障容忍性和计算资源可扩展性，这种模式非常适用于开发、测试环境，作为上线前进行低成本的全功能验证。

安装Hadoop伪分布式

检查DK8和Hadoop

我们可以接着复用CentOS 安装Hadoop 单机版[Hadoop 3 学习笔记]中现有的环境，继续进行伪分布式安装。可以参考Pseudo-Distributed Operation

前面我们正确的安装了JDK8和Hadoop并配置了JAVA_HOME、HADOOP_HOME和PATH，在伪分布式安装前再次检查下环境

下图我们检查完了JDK8和Hadoop是正常的

设置防火墙

如果你在自己的Linux上安装的话，建议新手关闭防火墙，避免部分hadoop必要端口无法访问导致的细节问题。

bash 复制代码

# 如果你的Linux安装了firewalld并默认开启了，建议新手第一安装时关闭firewalld
sudo systemctl stop firewalld
sudo systemctl disable firewalld
sudo systemctl status firewalld
# 如果你的Linux安装了NetworkManager并默认开启了，建议新手第一安装时关闭NetworkManager
sudo systemctl stop NetworkManager
sudo systemctl disable NetworkManager

注意：

当你熟悉Hadoop的安装后，我还是建议不要关闭防火墙，而是精确的设置防火墙来只放行必要的端口。
如果你的Linux是互联网可访问的，你需要注意安全性，关闭防火墙、暴露的端口不需要认证即可访问会产生非常严重的安全问题，互联网上必须慎重考虑安全。
- 建议在自己本地电脑开Linux虚拟机来进行实验或者在局域网内无公网IP的Linux上进行实验

设置Hadoop配置文件

Hadoop配置文件集中放在$HADOOP_HOME/etc/hadoop文件夹下

我们需要修改core-site.xml，内容如下

xml 复制代码

    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <!--默认端口9000-->
            <value>hdfs://localhost:9000</value>
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <!--可以自己自定义hadoop临时文件的路径，我习惯的路径为$HADOOP_HOME/tmp-->
            <value>/home/ec2-user/hadoop-3.3.6/tmp</value>
        </property>
    </configuration>

我们需要修改hdfs-site.xml，内容如下

xml 复制代码

    <configuration>
        <property>
            <name>dfs.replication</name>
            <!--伪分布式集群中只有一个节点，因此副本数量replication的值也只能设置为1-->
            <value>1</value>
        </property>
        <property>
            <name>dfs.namenode.secondary.http-address</name>
            <value>localhost:9868</value>
        </property>
        <property>
            <name>dfs.namenode.http-address</name>
            <!--Web UI 默认允许任意IP访问，你可以精细化设置-->
            <value>0.0.0.0:9870</value>
        </property>
    </configuration>

我们需要修改hadoop-env.sh，内容如下

ini 复制代码

# JAVA_HOME
export JAVA_HOME=/home/ec2-user/jdk8
# 设置用户默认为root
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root

格式化HDFS并启动

注意：下面的步骤以root身份运行

配置免密SSH

配置免密SSH,允许这台Linux通过SSH访问自己时不需要认证

bash 复制代码

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

格式化HDFS

在$HADOOP_HOME目录下找到hdfs可执行文件，并执行

bash 复制代码

sudo bin/hdfs namenode -format

开始格式化格式化完成

启动NameNod和DataNode

bash 复制代码

sudo bin/hdfs namenode -format

访问Web UI

我们可以直接访问http://x.x.x.x:9870看到Web UI，其中x.x.x.x是你Linux的IP

测试

我们可以直接以单词统计作测试，首先创建一个txt文件，里面包含了一段文字

css 复制代码

echo "Amazon EMR Serverless is a deployment option for Amazon EMR that provides a serverless runtime environment. This simplifies the operation of analytics applications that use the latest open-source frameworks, such as Apache Spark and Apache Hive. With EMR Serverless, you don't have to configure, optimize, secure, or operate clusters to run applications with these frameworks"  > words_test.txt

然后将这个文件上传到hdfs中

最后进行统计计算，输入为hdfs中的/words_test.txt(不是本地Linux的文件)，输出为hdfs中的/output 查询结果

bash 复制代码

# ls hdfs中的文件列表
hdfs dfs -ls /
# 输出hdfs中output文件夹下的内容
hdfs dfs -cat /output/*

Web UI上也可以看到

CentOS 安装Hadoop 伪分布式模式[[Hadoop 3 学习笔记]

Hadoop伪分布式模式介绍

安装Hadoop伪分布式

检查DK8和Hadoop

设置防火墙

设置Hadoop配置文件

格式化HDFS并启动

访问Web UI

测试

参考