CentOS 安装Hadoop 伪分布式模式[[Hadoop 3 学习笔记]

本文介绍在Linux上搭建安装Hadoop 伪分布式环境。前面我们介绍了CentOS 安装Hadoop 单机版[Hadoop 3 学习笔记],和单机模式类似,伪分布式模式也运行在单台机器上,是一个的Hadoop运行环境。由于伪分布式也只需要一台服务器,它不具备计算能力的可扩展性和软硬件的故障容忍性,所以依然不适合用户生产环境使用。

Hadoop伪分布式模式介绍

伪分布模式是指运行在一台主机上,使用多个Java进程模仿完全分布式模式运行中的各类节点。它的优点是通过模拟,伪分布模式具备完全分布式模式的主要功能,并且硬件资源要求低;它的缺点是没有故障容忍性和计算资源可扩展性,这种模式非常适用于开发、测试环境,作为上线前进行低成本的全功能验证。

安装Hadoop伪分布式

检查DK8和Hadoop

我们可以接着复用CentOS 安装Hadoop 单机版[Hadoop 3 学习笔记]中现有的环境,继续进行伪分布式安装。可以参考Pseudo-Distributed Operation

前面我们正确的安装了JDK8和Hadoop并配置了JAVA_HOMEHADOOP_HOMEPATH,在伪分布式安装前再次检查下环境

下图我们检查完了JDK8和Hadoop是正常的

设置防火墙

如果你在自己的Linux上安装的话,建议新手关闭防火墙,避免部分hadoop必要端口无法访问导致的细节问题。

bash 复制代码
# 如果你的Linux安装了firewalld并默认开启了,建议新手第一安装时关闭firewalld
sudo systemctl stop firewalld
sudo systemctl disable firewalld
sudo systemctl status firewalld
# 如果你的Linux安装了NetworkManager并默认开启了,建议新手第一安装时关闭NetworkManager
sudo systemctl stop NetworkManager
sudo systemctl disable NetworkManager

注意:

  • 当你熟悉Hadoop的安装后,我还是建议不要关闭防火墙,而是精确的设置防火墙来只放行必要的端口。
  • 如果你的Linux是互联网可访问的,你需要注意安全性,关闭防火墙、暴露的端口不需要认证即可访问会产生非常严重的安全问题,互联网上必须慎重考虑安全。
    • 建议在自己本地电脑开Linux虚拟机来进行实验或者在局域网内无公网IP的Linux上进行实验

设置Hadoop配置文件

Hadoop配置文件集中放在$HADOOP_HOME/etc/hadoop文件夹下

我们需要修改core-site.xml,内容如下

xml 复制代码
    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <!--默认端口9000-->
            <value>hdfs://localhost:9000</value>
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <!--可以自己自定义hadoop临时文件的路径,我习惯的路径为$HADOOP_HOME/tmp-->
            <value>/home/ec2-user/hadoop-3.3.6/tmp</value>
        </property>
    </configuration>

我们需要修改hdfs-site.xml,内容如下

xml 复制代码
    <configuration>
        <property>
            <name>dfs.replication</name>
            <!--伪分布式集群中只有一个节点,因此副本数量replication的值也只能设置为1-->
            <value>1</value>
        </property>
        <property>
            <name>dfs.namenode.secondary.http-address</name>
            <value>localhost:9868</value>
        </property>
        <property>
            <name>dfs.namenode.http-address</name>
            <!--Web UI 默认允许任意IP访问,你可以精细化设置-->
            <value>0.0.0.0:9870</value>
        </property>
    </configuration>

我们需要修改hadoop-env.sh,内容如下

ini 复制代码
# JAVA_HOME
export JAVA_HOME=/home/ec2-user/jdk8
# 设置用户默认为root
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root

格式化HDFS并启动

注意:下面的步骤以root身份运行

配置免密SSH

配置免密SSH,允许这台Linux通过SSH访问自己时不需要认证

bash 复制代码
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

格式化HDFS

$HADOOP_HOME目录下找到hdfs可执行文件,并执行

bash 复制代码
sudo bin/hdfs namenode -format

开始格式化 格式化完成

启动NameNod和DataNode

bash 复制代码
sudo bin/hdfs namenode -format

访问Web UI

我们可以直接访问http://x.x.x.x:9870看到Web UI,其中x.x.x.x是你Linux的IP

测试

我们可以直接以单词统计作测试,首先创建一个txt文件,里面包含了一段文字

css 复制代码
echo "Amazon EMR Serverless is a deployment option for Amazon EMR that provides a serverless runtime environment. This simplifies the operation of analytics applications that use the latest open-source frameworks, such as Apache Spark and Apache Hive. With EMR Serverless, you don't have to configure, optimize, secure, or operate clusters to run applications with these frameworks"  > words_test.txt

然后将这个文件上传到hdfs中

最后进行统计计算,输入为hdfs中的/words_test.txt(不是本地Linux的文件),输出为hdfs中的/output 查询结果

bash 复制代码
# ls hdfs中的文件列表
hdfs dfs -ls /
# 输出hdfs中output文件夹下的内容
hdfs dfs -cat /output/*

Web UI上也可以看到

参考

相关推荐
神的孩子都在歌唱39 分钟前
es创建的索引状态一直是red
大数据·elasticsearch·jenkins
liupenglove41 分钟前
快速掌握Elasticsearch检索之二:滚动查询获取全量数据(golang)
大数据·elasticsearch·搜索引擎
Taerge01101 小时前
数据仓库: 9- 数据仓库数据治理
大数据·数据仓库·spark
m0_748245521 小时前
Python大数据可视化:基于python大数据的电脑硬件推荐系统_flask+Hadoop+spider
大数据·python·flask
forestsea1 小时前
【Elasticsearch】数据分布与路由机制
大数据·elasticsearch·搜索引擎
大圣数据星球2 小时前
揭秘 Fluss 架构组件
大数据·设计模式·flink
沙滩de流沙2 小时前
Hadoop生态
大数据·hadoop·分布式
进击的小小学生2 小时前
多因子模型连载
大数据·python·数据分析·区块链
qiquandongkh2 小时前
期权懂|期权入门知识:如何选择期权合约?
大数据·区块链
互联网资讯2 小时前
抖音生活服务商系统源码怎么搭建?
大数据·运维·人工智能·生活