Hadoop快速搭建指南

Hadoop快速搭建指南

前言

作为一个处理大数据的工具,Hadoop已经成为许多企业进行数据处理和分析的首选。但如果你第一次接触它,设置和配置可能看起来有点棘手。因此,我将为你提供一个详细的指南,让你可以快速搭建并运行Hadoop集群。

环境

  • 操作系统:Ubuntu 22.04 LTS
  • Hadoop版本:3.3.6
  • Java版本:OpenJDK 11

准备工作

在开始之前,你需要确保系统上已经安装了Java 11。你可以使用以下命令进行安装:

bash 复制代码
sudo apt update
sudo apt install -y openjdk-11-jdk

安装完成后,确认Java版本:

bash 复制代码
java -version

输出应该类似于:

bash 复制代码
openjdk version "11.0.11" 2021-04-20
OpenJDK Runtime Environment (build 11.0.11+9-Ubuntu-0ubuntu2.20.04)
OpenJDK 64-Bit Server VM (build 11.0.11+9-Ubuntu-0ubuntu2.20.04, mixed mode)

下载并安装Hadoop

接下来,让我们下载并安装Hadoop。

步骤1:下载Hadoop

你可以直接从Apache Hadoop官网下载最新版:

bash 复制代码
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

步骤2:解压缩并移动Hadoop

解压缩下载的文件并将其移动到/usr/local目录:

bash 复制代码
tar -xzvf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop

步骤3:配置环境变量

为了方便使用Hadoop命令行工具,编辑~/.bashrc并添加以下行:

bash 复制代码
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

然后运行以下命令使更改生效:

bash 复制代码
source ~/.bashrc

步骤4:配置Hadoop

为了让Hadoop正常工作,需要进行一些配置。

编辑hadoop-env.sh

/usr/local/hadoop/etc/hadoop目录中找到hadoop-env.sh文件,并确保以下行指向正确的Java安装路径:

bash 复制代码
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
配置core-site.xml

创建和编辑/usr/local/hadoop/etc/hadoop/core-site.xml文件,添加以下内容:

xml 复制代码
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>
配置hdfs-site.xml

编辑/usr/local/hadoop/etc/hadoop/hdfs-site.xml文件,添加以下内容:

xml 复制代码
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>
配置mapred-site.xml

复制mapred-site.xml.templatemapred-site.xml并编辑:

bash 复制代码
cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

添加以下内容:

xml 复制代码
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>
配置yarn-site.xml

编辑/usr/local/hadoop/etc/hadoop/yarn-site.xml文件,添加以下内容:

xml 复制代码
<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
</configuration>

格式化NameNode

在启动Hadoop之前,需要格式化Hadoop文件系统。运行以下命令:

bash 复制代码
hdfs namenode -format

启动Hadoop

Hadoop配置完成后,可以启动相关服务。

启动HDFS

bash 复制代码
start-dfs.sh

启动YARN

bash 复制代码
start-yarn.sh

验证Hadoop是否运行

可以通过访问以下URL来验证Hadoop是否成功运行:

  • HDFS NameNodehttp://localhost:9870/
  • YARN ResourceManagerhttp://localhost:8088/

如果看到相关的仪表盘,则说明Hadoop成功启动。

简单的WordCount示例

为了验证Hadoop集群是否可以正常工作,可以使用一个简单的WordCount示例。

创建输入文件夹并添加示例数据

bash 复制代码
hdfs dfs -mkdir -p /user/hadoop/input
echo "Hello Hadoop Hello World" > input.txt
hdfs dfs -put input.txt /user/hadoop/input

运行WordCount示例

bash 复制代码
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/hadoop/input /user/hadoop/output

查看输出结果

bash 复制代码
hdfs dfs -cat /user/hadoop/output/part-r-00000

输出结果应类似于:

plaintext 复制代码
Hello 2
Hadoop 1
World 1

常见问题及注意事项

  • 无法连接到HDFS NameNode :确保core-site.xmlfs.defaultFS的地址正确。
  • Java版本兼容问题 :确保JAVA_HOME路径和hadoop-env.sh中的Java路径一致。
  • 端口冲突问题:如果出现端口被占用的情况,请检查是否有其他服务占用了Hadoop的默认端口。
复制代码
相关推荐
K_i1341 小时前
Hadoop 集群自动化运维实战
运维·hadoop·自动化
Q26433650234 小时前
【有源码】基于Python与Spark的火锅店数据可视化分析系统-基于机器学习的火锅店综合竞争力评估与可视化分析-基于用户画像聚类的火锅店市场细分与可视化研究
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
顧棟16 小时前
【Yarn实战】Yarn 2.9.1滚动升级到3.4.1调研与实践验证
hadoop·yarn
D明明就是我19 小时前
Hive 拉链表
数据仓库·hive·hadoop
嘉禾望岗5031 天前
hive join优化和数据倾斜处理
数据仓库·hive·hadoop
yumgpkpm1 天前
华为鲲鹏 Aarch64 环境下多 Oracle 数据库汇聚操作指南 CMP(类 Cloudera CDP 7.3)
大数据·hive·hadoop·elasticsearch·zookeeper·big data·cloudera
忧郁火龙果1 天前
六、Hive的基本使用
数据仓库·hive·hadoop
忧郁火龙果1 天前
五、安装配置hive
数据仓库·hive·hadoop
chad__chang2 天前
dolphinscheduler安装过程
hive·hadoop
ajax_beijing2 天前
hadoop的三副本数据冗余策略
大数据·hadoop·分布式