【数据仓库】hadoop3.3.6 安装配置

文章目录

概述

该文档是基于hadoop3.2.2版本升级到hadoop3.3.6版本,所以有些配置,是可以不用做的,下面仅记录新增操作,其他操作参见其他文章Hadoop3.2.1安装-单机模式和伪分布式模式

下载

https://archive.apache.org/dist/hadoop/common/hadoop-3.3.6/

下载hadoop-3.3.6.tar.gz版本

解压安装

复制代码
tar -zxvf hadoop-3.3.6.tar.gz

修改环境变量

复制代码
vi /etc/profile

增加以下内容:

复制代码
# Hadoop Environment Variables
export HADOOP_HOME=/home/XXX/hadoop-3.3.6
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

# 刷新配置
source /etc/profile

到bin目录下,查看版本

复制代码
./hadoop version

可以看到显示V3.3.6,配置安装成功,若直接以单机模式运行,到这里已经完成了安装。但是单机模式无法使用hdfs分布式文件系统功能。所以继续配置 伪分布式模式。

伪分布式模式

配置hdfs

etc/hadoop/core-site.xml文件配置:

复制代码
<configuration>
<!-- 配置dataNode保存数据的位置  -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/XXX/hadoop-3.3.6/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:39000</value>
    </property>
</configuration>

配置hdfs文件系统访问的默认根路径。

etc/hadoop/hdfs-site.xml文件配置:

复制代码
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/XXX/hadoop-3.3.6/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/XXX/hadoop-3.3.6/tmp/dfs/data</value>
    </property>
    <property>
        <name>dfs.namenode.http-address</name>
        <value>0.0.0.0:9870</value>
    </property>
</configuration>

配置hadoop-env.sh

为了防止后续会奇怪的错误,建议这里将hadoop和java的环境变量在hadoop下的hadoop-env.sh文件中再配置一遍:

复制代码
export HADOOP_HOME=/home/XXX/hadoop-3.3.6
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"

export JAVA_HOME=/home/XXX/jdk1.8.0_201-amd64

ssh免密登录模式设置

参考hadoop3.2.1安装里的设置,这里需要使用hadoop用户操作。因为伪分布式是在一台机器上起了几个进程来模拟hadoop的运行角色,各进程间需要连接通信,所以要设置免密登录。

复制代码
# 切换到hadoop用户
su hadoop
# 验证是否设置免密登录
ssh localhost

显示

复制代码
Last login: Mon Dec 30 16:26:29 2024

则设置成功。

初始化HDFS

复制代码
# 进入hadoop bin 目录执行
hdfs namenode -format

启动hdfs

复制代码
在sbin目录修改start-dfs.sh,stop-dfs.sh脚本,在文件头部增加如下脚本:
    HDFS_DATANODE_USER=hadoop
	HADOOP_SECURE_DN_USER=hadoop
	HDFS_NAMENODE_USER=hadoop
	HDFS_SECONDARYNAMENODE_USER=hadoop

要以hadoop用户启动

复制代码
su hadoop
# 进入sbin,启动dfs
./start-dfs.sh
# 关闭dfs
./stop-dfs.sh
# 查看启动状态
jps

网页访问

复制代码
http://localhost:9870/

查看hdfs文件目录

复制代码
http://localhost:9870/explorer.html

配置yarn

etc/hadoop/mapred-site.xml文件

复制代码
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

etc/hadoop/yarn-site.xml文件

复制代码
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

启动yarn

复制代码
./start-yarn.sh

网页查看

复制代码
http://localhost:8088/

至此,伪分布式模式搭建完成。

hadoop启动后,进程id信息会被存到临时目录,会被系统定时清理,等到stop的时候会找不到进程信息,所以需要修改进程id存储路径,修改hadoop-env.sh 文件

复制代码
export HADOOP_PID_DIR=/usr/local/hadoop/pids/
相关推荐
yumgpkpm8 小时前
CMP (类ClouderaCDP7.3(404次编译) )华为鲲鹏Aarch64(ARM)信创环境 查询2100w行 hive 查询策略
数据库·数据仓库·hive·hadoop·flink·mapreduce·big data
CoookeCola20 小时前
MovieNet(A holistic dataset for movie understanding) :面向电影理解的多模态综合数据集与工具链
数据仓库·人工智能·目标检测·计算机视觉·数据挖掘
K_i1341 天前
Hadoop 集群自动化运维实战
运维·hadoop·自动化
Q26433650231 天前
【有源码】基于Python与Spark的火锅店数据可视化分析系统-基于机器学习的火锅店综合竞争力评估与可视化分析-基于用户画像聚类的火锅店市场细分与可视化研究
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
想ai抽2 天前
深入starrocks-多列联合统计一致性探查与策略(YY一下)
java·数据库·数据仓库
顧棟2 天前
【Yarn实战】Yarn 2.9.1滚动升级到3.4.1调研与实践验证
hadoop·yarn
D明明就是我2 天前
Hive 拉链表
数据仓库·hive·hadoop
嘉禾望岗5032 天前
hive join优化和数据倾斜处理
数据仓库·hive·hadoop
yumgpkpm2 天前
华为鲲鹏 Aarch64 环境下多 Oracle 数据库汇聚操作指南 CMP(类 Cloudera CDP 7.3)
大数据·hive·hadoop·elasticsearch·zookeeper·big data·cloudera
忧郁火龙果2 天前
六、Hive的基本使用
数据仓库·hive·hadoop