CentOS Stream 9 安装hadoop单机伪分布式模式

Hadoop的安装分为Standalone Operation、Pseudo-Distributed Operation、Fully-Distributed Operation,为了我们方便在本地搭建Hadoop集群和学习,我们来聊聊Hadoop的单机伪分布模式的搭建,并希望程序能在yarn上运行。

一、下载安装包

官方部署地址,可以参考

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#Download

安装包官网下载地址:

https://dlcdn.apache.org/hadoop/common/hadoop-3.4.2/

大家可以根据自己的电脑系统下载相应的安装包,我的是M芯片的,所以下载这个安装包

二、准备一台虚拟机,我这里起名为centos01。

三、永久关闭防火墙

首先查看防火墙状态

复制代码
systemctl status firewalld

出现一下状态视为激活状态

关闭防火墙

复制代码
systemctl disable firewalld

注意:当然根据你的实际需要,开启防火墙状态的命令为

复制代码
systemctl enable firewalld
systemctl start firewalld

四、配置主机名

复制代码
vim /etc/sysconfig/network

添加以下内容

五、修改hosts文件

复制代码
vim /etc/hosts

添加以下内容,其中ip是我本地ip,可以替换成自己的ip。

重启系统,执行reboot命令,可以看到主机名已经修改过来了。

六、配置免密码登录

在centos01节点执行ssh-keygen,然后一直回车

如果是单机的伪分布环境,节点需要登录自己节点,就需要配置自己节点的免密码登录

复制代码
ssh-copy-id -i /root/.ssh/id_ed25519.pub root@centos01

七、安装和配置JDK

就不在这里叙述了,可以参考网上的其他文章,或者我之前的文章

八、上传和解压hadoop

将之前下载的安装包上传到/usr/local/hadoop目录下,并进行解压

复制代码
tar -xvf hadoop-3.4.2-aarch64-lean.tar

九、配置hadoop文件配置,配置文件在/usr/local/hadoop/hadoop-3.4.2/etc/hadoop

1)修改hadoop-env.sh

主要是修改java路径和hadoop路径

复制代码
cd /usr/local/hadoop/hadoop-3.4.2/etc/hadoop
vim hadoop-env.sh 

执行 source hadoop-env.sh 让配置立即生效。

2)修改 core-site.xml

复制代码
<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://centos01:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadoop-3.4.2/tmp</value>
</property>

</configuration>

需要创建tmp目录。

3)修改 hdfs-site.xml

复制代码
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

4)修改 mapred-site.xml

复制代码
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

5)修改 yarn-site.xml

复制代码
<configuration>

<property>
<name>yarn.resourcemanager.hostname</name>
<value>centos01</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

</configuration>

十、配置 slaves 文件,集群所有datanode的主机名

十一、配置hadoop环境变量

复制代码
export HADOOP_HOME=/usr/local/hadoop/hadoop-3.4.2
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

source /etc/profile 是配置文件生效

十二、格式化namenode

复制代码
hadoop namenode -format

运行中出现以下错误

查看问题原因及官方文档,估计是jdk版本匹配不一致。

切换jdk版本,并重新配置hadoop-env.sh

再次执行hadoop namenode -format

格式化成功,说明配置没有问题。

十三、启动hadoop

在sbin目录,执行./start-all.sh

出现以下问题

以root用户启动hadoop,出现用户权限问题。

我们可以找一下官方配置,查看和权限有关的选项

我们选择hdfs-default.xml看一下,可以找到以下有关权限的一些描述。

将hdfs-site.xml重新配置

复制代码
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
</configuration>

再次执行,发现还是出现以上问题。

通过网友们发布的帖子,在hadoop-env.sh中设置环境变量,解决了问题。

复制代码
export HDFS_NAMENODE_USER=root 
export HDFS_DATANODE_USER=root 
export HDFS_SECONDARYNAMENODE_USER=root 
export YARN_RESOURCEMANAGER_USER=root 
export YARN_NODEMANAGER_USER=root

再次执行,启动成功。

执行jps

通过网址进行访问http://192.168.128.132:8088/

正常访问,单机伪分布模式部署成功。

相关推荐
身如柳絮随风扬2 分钟前
深度解析 Elasticsearch 搜索服务:核心原理、架构与优化实践
大数据·elasticsearch·架构
kft131422 分钟前
AI 驱动测试 2.0:当测试智能体成为你的“超级 QA“
大数据·人工智能·elasticsearch
亿信华辰软件1 小时前
睿治Agent数据治理平台重磅发布:数据治理大脑+全栈Agent,以AI重构数据治理全流程
大数据·人工智能
成长之路5141 小时前
【数据集】地级市农业韧性数据-含代码(1990-2023年)
大数据
CyberwayTech3 小时前
赛博威线上营销费用管理:咨询+系统,双轮驱动ROI增长
大数据·人工智能
NOCSAH3 小时前
统好AI:助力企业智改数转的务实实践
大数据·人工智能·统好ai
Sinokap3 小时前
GPT-5.5 上线:OpenAI 把 AI 推向真实办公场景
大数据·人工智能
七颗糖很甜3 小时前
“十五五”气象发展规划:聚焦五大核心任务
大数据·python·算法
科研前沿3 小时前
镜像视界浙江科技有限公司的关键技术突破有哪些?
大数据·人工智能·科技·算法·音视频·空间计算
captain_AIouo3 小时前
聚焦实操赋能,Captain AI系统功能实操指南及价值解读
大数据·人工智能·经验分享·aigc