Hadoop第2课(伪分布式集群的搭建)

jdk和hadoop安装包:

hadoop-2.9.2.t......等2个文件官方版下载丨最新版下载丨绿色版下载丨APP下载-123云盘

1、用XFTP发送hadoop安装包和jdk到/home/hadoop/目录下(hadoop用户的主目录)

2、解压jdk安装包到~目录

卸载jdk的命令:rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

cd /home/hadoop
tar -zxvf /home/hadoop/jdk-8u311-linux-x64.tar.gz

3、配置bashrc

vim ~/.bashrc

export JAVA_HOME=/home/hadoop/jdk1.8.0_311

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=JAVA_HOME/lib:JAVA_HOME/jre/lib

export PATH=PATH:JAVA_HOME/bin:$JRE_HOME

保存后输入source ~/.bashrc

4、继续解压hadoop安装包到~目录

tar --zxvf hadoop-2.9.2.tar.gz

5、配置bashrc

vim .bashrc

export HADOOP_HOME=/home/hadoop/hadoop-2.9.2

export PATH=JAVA_HOME/bin:HADOOP_HOME/bin:HADOOP_HOME/sbin:PATH

source .bashrc

6、配置Hadoop配置文件,实现伪分布式;

Hadoop 配置文件很多,都位于 $HADOOP_HOME/etc/hadoop 下。

下面简单的描述一下几个重要的配置文件:

hadoop-env.sh:运行 Hadoop 要用的环境变量。

core-site.xml:核心配置项,包括 HDFS、MapReduce 和 YARN 常用的 I/O 设置等。

hdfs-site.xml:HDFS相关进程的配置项,包括 NameNode、SecondaryNameNode、DataNode等。

yarn-site.xml:YARN 相关进程的配置项,包括 ResourceManager、NodeManager 等。

mapred-site.xml:MapReduce 相关进程的配置项。

slaves:从节点配置文件,通常每行 1 个从节点主机名。

log4j.properties:系统日志、NameNode 审计日志、JVM 进程日志的配置项。

Hadoop伪分布式配置:

所有配置文件都在hadoop安装目录下的/etc/hadoop/里,所以先cd进去:

cd ~/hadoop-2.9.2/etc/hadoop

1.vim ./hadoop-env.sh

设置一项java安装目录即可:

export JAVA_HOME=/home/hadoop/jdk1.8.0_311

2.vim ./core-site.xml

复制代码
<configuration>
<property>
<name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
<!--配置hdfs NameNode的地址,9000是RPC通信的端口-->
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/data/tmp</value>
<!--hadoop运行时产生的临时文件的存放目录-->
</property>
</configuration>

3.vim hdfs-site.xml

复制代码
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/data/dfs/name</value>
<!--配置namenode节点存储fsimage的目录位置-->
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/data/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
<!--配置hdfs副本数量-->
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
<!--关闭hdfs的权限检查-->
</property>
<!--配置datanode 节点存储block的目录位置-->
</configuration>

4. vim mapred-site.xml

复制代码
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<!--指定运行mapreduce的环境为YARN-->
</property>
</configuration>

5.vim yarn-site.xml

复制代码
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<!--配置NodeManager执行MapReduce任务的方式为Shuffle混洗-->
</property>
</configuration>

6.vim slaves

该文件主要配置datanode角色的主机,目前我们属于伪分布式,因此只填写本机作为从节点即可

改为:master

7.创建三个用来存放文件

mkdir -p /home/hadoop/data/tmp

mkdir -p /home/hadoop/data/dfs/name

mkdir -p /home/hadoop/data/dfs/data

8. 启动Hadoop伪分布式集群并测试:

(1)格式化NameNode

hdfs namenode -format

(2)启动集群

start-all.sh

查看进程

jps

查看HDFS

浏览器输入网址:http://master:50070/

查看YARN

浏览器输入网址:http://master:8088/

测试集群:见课本

相关推荐
laozhao4327 小时前
科大讯飞中标教育管理应用升级开发项目
大数据·人工智能
GIS数据转换器9 小时前
延凡城市生命线系统
大数据·人工智能·信息可视化·数据挖掘·无人机
摇滚侠9 小时前
JAVA 项目教程《黑马商城-Redis 篇》,分布式架构项目,从开发到部署
java·redis·分布式
运维行者_9 小时前
网络监控方案从零开始 -- 企业级完整指南
大数据·运维·服务器·网络·数据库·人工智能·自动化
l1t10 小时前
四种python工具包用SQL查询csv和parquet文件的方法比较
大数据·python·sql
weixin_5051544612 小时前
博维数孪创新引领,3D作业指导助力制造业升级
大数据·人工智能·3d·数字孪生·数据可视化·产品交互展示
LONGZETECH14 小时前
新能源汽车维护仿真软件技术架构解析+ 教学落地实操
大数据·c语言·人工智能·架构·汽车·汽车仿真教学软件·汽车教学软件
星辰_mya15 小时前
Redlock 算法:是分布式锁的“圣杯”还是“鸡肋”
jvm·redis·分布式·面试·redlock
武子康15 小时前
大数据-250 离线数仓 - 电商分析 Hive 数仓 ADS 层订单分析实战:全国/大区/城市分类汇总与 Airflow 调度
大数据·后端·apache hive
QYR_Jodie15 小时前
半导体与新能源电子驱动,稳增前行:全球激光焊锡机2026-2032年CAGR4.7%,2032年锚定1.32亿美元
大数据·市场报告