CentOS 安装Hadoop 伪分布式模式[[Hadoop 3 学习笔记]

本文介绍在Linux上搭建安装Hadoop 伪分布式环境。前面我们介绍了CentOS 安装Hadoop 单机版[Hadoop 3 学习笔记],和单机模式类似,伪分布式模式也运行在单台机器上,是一个的Hadoop运行环境。由于伪分布式也只需要一台服务器,它不具备计算能力的可扩展性和软硬件的故障容忍性,所以依然不适合用户生产环境使用。

Hadoop伪分布式模式介绍

伪分布模式是指运行在一台主机上,使用多个Java进程模仿完全分布式模式运行中的各类节点。它的优点是通过模拟,伪分布模式具备完全分布式模式的主要功能,并且硬件资源要求低;它的缺点是没有故障容忍性和计算资源可扩展性,这种模式非常适用于开发、测试环境,作为上线前进行低成本的全功能验证。

安装Hadoop伪分布式

检查DK8和Hadoop

我们可以接着复用CentOS 安装Hadoop 单机版[Hadoop 3 学习笔记]中现有的环境,继续进行伪分布式安装。可以参考Pseudo-Distributed Operation

前面我们正确的安装了JDK8和Hadoop并配置了JAVA_HOMEHADOOP_HOMEPATH,在伪分布式安装前再次检查下环境

下图我们检查完了JDK8和Hadoop是正常的

设置防火墙

如果你在自己的Linux上安装的话,建议新手关闭防火墙,避免部分hadoop必要端口无法访问导致的细节问题。

bash 复制代码
# 如果你的Linux安装了firewalld并默认开启了,建议新手第一安装时关闭firewalld
sudo systemctl stop firewalld
sudo systemctl disable firewalld
sudo systemctl status firewalld
# 如果你的Linux安装了NetworkManager并默认开启了,建议新手第一安装时关闭NetworkManager
sudo systemctl stop NetworkManager
sudo systemctl disable NetworkManager

注意:

  • 当你熟悉Hadoop的安装后,我还是建议不要关闭防火墙,而是精确的设置防火墙来只放行必要的端口。
  • 如果你的Linux是互联网可访问的,你需要注意安全性,关闭防火墙、暴露的端口不需要认证即可访问会产生非常严重的安全问题,互联网上必须慎重考虑安全。
    • 建议在自己本地电脑开Linux虚拟机来进行实验或者在局域网内无公网IP的Linux上进行实验

设置Hadoop配置文件

Hadoop配置文件集中放在$HADOOP_HOME/etc/hadoop文件夹下

我们需要修改core-site.xml,内容如下

xml 复制代码
    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <!--默认端口9000-->
            <value>hdfs://localhost:9000</value>
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <!--可以自己自定义hadoop临时文件的路径,我习惯的路径为$HADOOP_HOME/tmp-->
            <value>/home/ec2-user/hadoop-3.3.6/tmp</value>
        </property>
    </configuration>

我们需要修改hdfs-site.xml,内容如下

xml 复制代码
    <configuration>
        <property>
            <name>dfs.replication</name>
            <!--伪分布式集群中只有一个节点,因此副本数量replication的值也只能设置为1-->
            <value>1</value>
        </property>
        <property>
            <name>dfs.namenode.secondary.http-address</name>
            <value>localhost:9868</value>
        </property>
        <property>
            <name>dfs.namenode.http-address</name>
            <!--Web UI 默认允许任意IP访问,你可以精细化设置-->
            <value>0.0.0.0:9870</value>
        </property>
    </configuration>

我们需要修改hadoop-env.sh,内容如下

ini 复制代码
# JAVA_HOME
export JAVA_HOME=/home/ec2-user/jdk8
# 设置用户默认为root
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root

格式化HDFS并启动

注意:下面的步骤以root身份运行

配置免密SSH

配置免密SSH,允许这台Linux通过SSH访问自己时不需要认证

bash 复制代码
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

格式化HDFS

$HADOOP_HOME目录下找到hdfs可执行文件,并执行

bash 复制代码
sudo bin/hdfs namenode -format

开始格式化 格式化完成

启动NameNod和DataNode

bash 复制代码
sudo bin/hdfs namenode -format

访问Web UI

我们可以直接访问http://x.x.x.x:9870看到Web UI,其中x.x.x.x是你Linux的IP

测试

我们可以直接以单词统计作测试,首先创建一个txt文件,里面包含了一段文字

css 复制代码
echo "Amazon EMR Serverless is a deployment option for Amazon EMR that provides a serverless runtime environment. This simplifies the operation of analytics applications that use the latest open-source frameworks, such as Apache Spark and Apache Hive. With EMR Serverless, you don't have to configure, optimize, secure, or operate clusters to run applications with these frameworks"  > words_test.txt

然后将这个文件上传到hdfs中

最后进行统计计算,输入为hdfs中的/words_test.txt(不是本地Linux的文件),输出为hdfs中的/output 查询结果

bash 复制代码
# ls hdfs中的文件列表
hdfs dfs -ls /
# 输出hdfs中output文件夹下的内容
hdfs dfs -cat /output/*

Web UI上也可以看到

参考

相关推荐
Edingbrugh.南空3 小时前
Flink自定义函数
大数据·flink
gaosushexiangji4 小时前
利用sCMOS科学相机测量激光散射强度
大数据·人工智能·数码相机·计算机视觉
无级程序员6 小时前
大数据平台之ranger与ldap集成,同步用户和组
大数据·hadoop
lifallen7 小时前
Paimon 原子提交实现
java·大数据·数据结构·数据库·后端·算法
TDengine (老段)8 小时前
TDengine 数据库建模最佳实践
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
张先shen8 小时前
Elasticsearch RESTful API入门:全文搜索实战(Java版)
java·大数据·elasticsearch·搜索引擎·全文检索·restful
Elastic 中国社区官方博客8 小时前
Elasticsearch 字符串包含子字符串:高级查询技巧
大数据·数据库·elasticsearch·搜索引擎·全文检索·lucene
张先shen9 小时前
Elasticsearch RESTful API入门:全文搜索实战
java·大数据·elasticsearch·搜索引擎·全文检索·restful
天翼云开发者社区9 小时前
Doris-HDFS LOAD常见问题汇总(二)
大数据·doris
简婷1870199877510 小时前
源网荷储 + 零碳园区:一场关于能源与未来的双向奔赴
大数据·人工智能·能源