hadoop单机伪分布环境配置

环境配置

这个板块实现的伪分布

  • ubuntu 24.04
  • hadoop-3.3.0
  • hbase-2.4.18
  • jdk 1.8.0_461
  • zookeeper-3.7.2

安装 JDK

解压

在已经下载好 jdk-8u461-linux-x64.tar.gz的目录下打开终端。

把jdk的文件解压到 /usr/local/java目录下

bash 复制代码
sudo mkdir -p /usr/local/java
sudo tar -zxvf jdk-8u461-linux-x64.tar.gz -C /usr/local/java

配置环境变量

~/.bashrc配置文件中修改java的配置:

bash 复制代码
export JAVA_HOME=/usr/local/java/jdk1.8.0_461
export PATH=$JAVA_HOME/bin:$PATH

刷新环境:

bash 复制代码
source ~/.bashrc
java -version
# 预期输出 java version "1.8.0_461"

配置SSH

安装并启动SSH服务

在终端执行:

bash 复制代码
sudo apt update
sudo apt install openssh-server -y

安装完成后,启动并设置开机自启:

bash 复制代码
sudo systemctl enable ssh
sudo systemctl start ssh

检查状态:

bash 复制代码
systemctl status ssh

如果看到 active (running) 就说明 SSH 已经正常运行。

配置免密登录(Hadoop 启动脚本需要)

Hadoop 在启动时需要通过 SSH 登录 本机的 localhost,所以要配置免密。

执行:

bash 复制代码
ssh-keygen -t rsa -P ""
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

然后给这个key起名

测试是否能无密码登录:

bash 复制代码
ssh localhost

能直接进去而不需要输入密码,就说明免密登录配置好了,输入 exit 退出。


安装 Haddoop 3.3.0

下载&解压

在已经下载好 hadoop-3.3.0.tar.gz的目录下运行:

bash 复制代码
tar -zxvf hadoop-3.3.0.tar.gz
sudo mv hadoop-3.3.0 /usr/local/hadoop

配置环境变量

~/.bashrc 添加:

bash 复制代码
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

刷新:

bash 复制代码
source ~/.bashrc
hadoop version
# 可以看到Hadoop 3.3.0就说明成功了

修改配置文件

$HADOOP_HOME/etc/hadoop 下修改对应的文件:

(按照前面的流程做的是在 /usr/local/hadoop/etc/hadoop下)

hadoop-env.sh

直接添加一行即可

bash 复制代码
export JAVA_HOME=/usr/local/java/jdk1.8.0_461
core-site.xml

修改原来的 <configuration></configuration>

因为现在是在本地模拟分布,所以使用localhost为ip地址。

作用:配置Hadoop核心参数

关键配置:

fs.defaultFS:定义默认文件系统为HDFS,地址是hdfs://localhost:9000

hadoop.tmp.dir:指定Hadoop运行时的临时目录

xml 复制代码
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>
hdfs-site.xml

修改原来的 <configuration></configuration>

作用:配置HDFS(Hadoop分布式文件系统)相关参数

关键配置:

dfs.replication:设置数据副本数为1(单机伪分布式)

dfs.namenode.name.dir:NameNode元数据存储位置

dfs.datanode.data.dir:DataNode数据存储位置

xml 复制代码
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///usr/local/hadoop/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///usr/local/hadoop/hdfs/datanode</value>
    </property>
</configuration>
mapred-site.xml

修改原来的 <configuration></configuration>

xml 复制代码
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
yarn-site.xml

修改原来的 <configuration></configuration>

xml 复制代码
<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>localhost</value>
  </property>
  <property>
		<name>yarn.application.classpath</name>
		<value>
		  $HADOOP_HOME/etc/hadoop,
		  $HADOOP_HOME/share/hadoop/common/*,
		  $HADOOP_HOME/share/hadoop/common/lib/*,
		  $HADOOP_HOME/share/hadoop/hdfs/*,
		  $HADOOP_HOME/share/hadoop/hdfs/lib/*,
		  $HADOOP_HOME/share/hadoop/mapreduce/*,
		  $HADOOP_HOME/share/hadoop/mapreduce/lib/*,
		  $HADOOP_HOME/share/hadoop/yarn/*,
		  $HADOOP_HOME/share/hadoop/yarn/lib/*
		</value>
	</property>
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>
	<property>
		<name>yarn.nodemanager.remote-app-log-dir</name>
		<value>/tmp/logs</value>  <!-- 或 HDFS 上的 path: hdfs://localhost:9000/tmp/logs -->
	</property>
</configuration>

启动 Hadoop

bash 复制代码
hdfs namenode -format  # 这句是用于初始化NameNode的,在第一次启动前进行格式化。
start-dfs.sh
start-yarn.sh

检查当前启动的:

bash 复制代码
jps
# 应该看到 NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager

可以通过下面的命令来停止之前的进程

bash 复制代码
stop-dfs.sh
stop-yarn.sh

Web UI:


安装 ZooKeeper 3.7.1

HBase 依赖 ZooKeeper。

下载 & 解压

下载 apache-zookeeper-3.7.2-bin.tar.gz压缩包,在文件所在目录运行:

bash 复制代码
tar -zxvf apache-zookeeper-3.7.2-bin.tar.gz
sudo mv apache-zookeeper-3.7.2-bin /usr/local/zookeeper

配置

复制默认配置:

bash 复制代码
cd /usr/local/zookeeper/conf
cp zoo_sample.cfg zoo.cfg

编辑 zoo.cfg

可以直接全部替换,或者找到对应项来替换:

ini 复制代码
tickTime=2000
dataDir=/usr/local/zookeeper/data
dataLogDir=/usr/local/zookeeper/logs
clientPort=2181
initLimit=10
syncLimit=5

创建目录:

bash 复制代码
sudo mkdir -p /usr/local/zookeeper/data
sudo mkdir -p /usr/local/zookeeper/logs

启动 ZooKeeper

添加环境变量,编辑 ~/.bashrc

bash 复制代码
export ZOOKEEPER_HOME=/usr/local/zookeeper
export PATH=$PATH:$ZOOKEEPER_HOME/bin

刷新

bash 复制代码
source ~/.bashrc
bash 复制代码
zkServer.sh start   # 运行
zkServer.sh status  # 查看状态
zkServer.sh stop   # 运行

如果看到 Mode: standalone,说明启动成功。

再用 jps,应该看到 QuorumPeerMain 进程。

安装 HBase

下载 & 解压

解压 hbase-2.4.18-bin.tar.gz并移动

bash 复制代码
tar -zxvf hbase-2.4.18-bin.tar.gz
sudo mv hbase-2.4.18 /usr/local/hbase

配置环境变量

~/.bashrc 添加:

bash 复制代码
export HBASE_HOME=/usr/local/hbase
export PATH=$HBASE_HOME/bin:$PATH

刷新:

bash 复制代码
source ~/.bashrc

修改配置文件

$HBASE_HOME/conf 下:

(/usr/local/hbase/conf)

hbase-env.sh

添加语句

bash 复制代码
export JAVA_HOME=/usr/local/java/jdk1.8.0_461
export HBASE_MANAGES_ZK=false   # 因为我们自己启动了独立的 ZooKeeper
hbase-site.xml
xml 复制代码
<configuration>
    <!-- 使用 HDFS 存储 HBase 数据 -->
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://localhost:9000/hbase</value>
    </property>

    <!-- 表示这是一个分布式集群(即便是伪分布式) -->
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>

    <!-- ZooKeeper 配置 -->
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>localhost</value>
    </property>
    <property>
        <name>hbase.zookeeper.property.clientPort</name>
        <value>2181</value>
    </property>
</configuration>

启动 HBase

bash 复制代码
start-hbase.sh

验证:

bash 复制代码
jps
# 多了 HMaster、HRegionServer

Web UI:


启动顺序总结

  1. 启动 Hadoop(HDFS + YARN)
bash 复制代码
start-dfs.sh
start-yarn.sh
  1. 启动 ZooKeeper
bash 复制代码
zkServer.sh start
  1. 启动 HBase
bash 复制代码
start-hbase.sh


相关推荐
艾莉丝努力练剑20 分钟前
【优选算法必刷100题】第031~32题(前缀和算法):连续数组、矩阵区域和
大数据·人工智能·线性代数·算法·矩阵·二维前缀和
能鈺CMS27 分钟前
能鈺CMS · 虚拟发货源码
java·大数据·数据库
一起学开源1 小时前
分布式基石:CAP定理与ACID的取舍艺术
分布式·微服务·架构·流程图·软件工程
雁于飞1 小时前
分布式基础
java·spring boot·分布式·spring·wpf·cloud native
非著名架构师2 小时前
极端天气下的供应链韧性:制造企业如何构建气象风险防御体系
大数据·人工智能·算法·制造·疾风气象大模型·风光功率预测
做萤石二次开发的哈哈3 小时前
11月27日直播预告 | 萤石智慧台球厅创新场景化方案分享
大数据·人工智能
Hello.Reader3 小时前
使用 Flink CDC 搭建跨库 Streaming ETLMySQL + Postgres → Elasticsearch 实战
大数据·elasticsearch·flink
用户199701080184 小时前
1688图片搜索API | 上传图片秒找同款 | 相似商品精准推荐
大数据·数据挖掘·图片资源
武子康4 小时前
大数据-164 Apache Kylin Cuboid 剪枝实战:Derived 维度与膨胀率控制
大数据·后端·apache kylin
梦里不知身是客115 小时前
shuffle过程
大数据