CentOS Stream 9 安装hadoop单机伪分布式模式

Hadoop的安装分为Standalone Operation、Pseudo-Distributed Operation、Fully-Distributed Operation,为了我们方便在本地搭建Hadoop集群和学习,我们来聊聊Hadoop的单机伪分布模式的搭建,并希望程序能在yarn上运行。

一、下载安装包

官方部署地址,可以参考

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#Download

安装包官网下载地址:

https://dlcdn.apache.org/hadoop/common/hadoop-3.4.2/

大家可以根据自己的电脑系统下载相应的安装包,我的是M芯片的,所以下载这个安装包

二、准备一台虚拟机,我这里起名为centos01。

三、永久关闭防火墙

首先查看防火墙状态

复制代码
systemctl status firewalld

出现一下状态视为激活状态

关闭防火墙

复制代码
systemctl disable firewalld

注意:当然根据你的实际需要,开启防火墙状态的命令为

复制代码
systemctl enable firewalld
systemctl start firewalld

四、配置主机名

复制代码
vim /etc/sysconfig/network

添加以下内容

五、修改hosts文件

复制代码
vim /etc/hosts

添加以下内容,其中ip是我本地ip,可以替换成自己的ip。

重启系统,执行reboot命令,可以看到主机名已经修改过来了。

六、配置免密码登录

在centos01节点执行ssh-keygen,然后一直回车

如果是单机的伪分布环境,节点需要登录自己节点,就需要配置自己节点的免密码登录

复制代码
ssh-copy-id -i /root/.ssh/id_ed25519.pub root@centos01

七、安装和配置JDK

就不在这里叙述了,可以参考网上的其他文章,或者我之前的文章

八、上传和解压hadoop

将之前下载的安装包上传到/usr/local/hadoop目录下,并进行解压

复制代码
tar -xvf hadoop-3.4.2-aarch64-lean.tar

九、配置hadoop文件配置,配置文件在/usr/local/hadoop/hadoop-3.4.2/etc/hadoop

1)修改hadoop-env.sh

主要是修改java路径和hadoop路径

复制代码
cd /usr/local/hadoop/hadoop-3.4.2/etc/hadoop
vim hadoop-env.sh 

执行 source hadoop-env.sh 让配置立即生效。

2)修改 core-site.xml

复制代码
<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://centos01:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadoop-3.4.2/tmp</value>
</property>

</configuration>

需要创建tmp目录。

3)修改 hdfs-site.xml

复制代码
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

4)修改 mapred-site.xml

复制代码
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

5)修改 yarn-site.xml

复制代码
<configuration>

<property>
<name>yarn.resourcemanager.hostname</name>
<value>centos01</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

</configuration>

十、配置 slaves 文件,集群所有datanode的主机名

十一、配置hadoop环境变量

复制代码
export HADOOP_HOME=/usr/local/hadoop/hadoop-3.4.2
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

source /etc/profile 是配置文件生效

十二、格式化namenode

复制代码
hadoop namenode -format

运行中出现以下错误

查看问题原因及官方文档,估计是jdk版本匹配不一致。

切换jdk版本,并重新配置hadoop-env.sh

再次执行hadoop namenode -format

格式化成功,说明配置没有问题。

十三、启动hadoop

在sbin目录,执行./start-all.sh

出现以下问题

以root用户启动hadoop,出现用户权限问题。

我们可以找一下官方配置,查看和权限有关的选项

我们选择hdfs-default.xml看一下,可以找到以下有关权限的一些描述。

将hdfs-site.xml重新配置

复制代码
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
</configuration>

再次执行,发现还是出现以上问题。

通过网友们发布的帖子,在hadoop-env.sh中设置环境变量,解决了问题。

复制代码
export HDFS_NAMENODE_USER=root 
export HDFS_DATANODE_USER=root 
export HDFS_SECONDARYNAMENODE_USER=root 
export YARN_RESOURCEMANAGER_USER=root 
export YARN_NODEMANAGER_USER=root

再次执行,启动成功。

执行jps

通过网址进行访问http://192.168.128.132:8088/

正常访问,单机伪分布模式部署成功。

相关推荐
码界奇点2 小时前
基于Spring与Netty的分布式配置管理系统设计与实现
java·分布式·spring·毕业设计·源代码管理
北京盛世宏博2 小时前
数据可追溯 + 加密传输:以太网温湿度变送器守护涉密档案安全
大数据·运维·人工智能·档案温湿度
小五传输2 小时前
主流的文件摆渡系统品牌核心功能解析,助力企业数据安全流转
大数据·运维·安全
rgb2gray2 小时前
论文深度解析:基于大语言模型的城市公园多维度感知解码与公平性提升
大数据·人工智能·机器学习·语言模型·自然语言处理·数据分析·可解释
Jackyzhe4 小时前
Flink源码阅读:JobManager的HA机制
大数据·flink
【D'accumulation】4 小时前
Kafka地址映射不通(很常见的问题)
分布式·kafka
鲨莎分不晴4 小时前
大数据基石深度解析:系统性读懂 Hadoop 与 ZooKeeper
大数据·hadoop·zookeeper
数翊科技10 小时前
深度解析 HexaDB分布式 DDL 的全局一致性
分布式
Sylvan Ding10 小时前
度量空间数据管理与分析系统——大数据泛构课程作业-2025~2026学年. 毛睿
大数据·深圳大学·大数据泛构·度量空间数据管理与分析系统·毛睿·北京理工大学珠海校区