【hadoop】部署hadoop全分布模式

hadoop全分布模式

全分布模式特点

  1. 真正的分布式环境,用于生产
  2. 具备Hadoop的所有功能:HDFS、Yarn

部署全分布模式

在三台虚拟机上面进行部署

准备工作

1、关闭防火墙(略)

java 复制代码
systemctl stop firewalld.service
systemctl disable firewalld.service

2、设置主机名

使用xshell工具,对三台虚拟机同时进行操作

java 复制代码
vi /etc/hosts

3、免密码登录

ssh-keygen -t rsa 产生自己的公钥和私钥

将自己的公钥都拷贝给对方

java 复制代码
ssh-copy-id -i .ssh/id_rsa.pub root@bigdata112
ssh-copy-id -i .ssh/id_rsa.pub root@bigdata113
ssh-copy-id -i .ssh/id_rsa.pub root@bigdata114

验证一下,都不需要密码

4、jdk安装(略)

5、同步时间

6、解压和设置环境变量

每台都需要配置环境变量,另外两台虚拟机bigdata113和bigdata114则不需要解压。

操作详细见 在linux上设置Hadoop的环境变量

准备工作已经完成!下面进入正式的部署。

正式配置

hadoop-env.sh

路径:/root/training/hadoop-2.7.3/etc/hadoop($HADOOP_HOME/etc/hadoop)

更改第25行 export JAVA_HOME=/root/training/jdk1.8.0_181

hdfs-site.xml

进入 /root/training/hadoop-2.7.3/etc/hadoop/ 路径找到 hdfs-site.xml 文件进行编辑。

java 复制代码
vi hdfs-site.xml

将下面xml代码添加该文件

xml 复制代码
<!--数据块的冗余度,默认是3-->
<!--一般来说,数据块冗余度跟数据节点的个数一致,最大不超过3-->
<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>

<!--禁用了HDFS的权限检查-->
<property>
	<name>dfs.permissions</name>
	<value>false</value>
</property>

core-site.xml

需要在hadoop目录下,先创建出tmp文件,作为HDFS对应的操作系统目录。

java 复制代码
mkdir /root/training/hadoop-2.7.3/tmp

编辑操作与上面文件相同,则不演示。

xml 复制代码
<!--配置NameNode的地址-->
<!--9000是RPC通信的端口-->
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://bigdata112:9000</value>
</property>

<!--HDFS对应的操作系统目录-->
<!--默认值是Linux的tmp目录-->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/root/training/hadoop-2.7.3/tmp</value>
</property>

mapred-site.xml

这个文件默认没有,需要我们先复制

java 复制代码
cp mapred-site.xml.template mapred-site.xml
xml 复制代码
<!--配置MapReduce运行的框架是Yarn-->
<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
</property>

yarn-site.xml

xml 复制代码
<!--配置ResourceManager的地址-->
<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>bigdata112</value>
</property>

<!--MapReduce运行的方式是洗牌-->
<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
</property>

slaves

slaves中指定从节点的地址,将localhost改成bigdata113 bigdata114

对NameNode进行格式化

执行下面这条命名

java 复制代码
hdfs namenode -format

成功则出现下面这句话。

复制到另外两台虚拟机

把bigdata112上的整个hadoop目录复制到bigdata113和bigdata114上面

先进入/root/training目录,执行下面两句完成复制。

java 复制代码
scp -r hadoop-2.7.3/ root@bigdata113:/root/training
scp -r hadoop-2.7.3/ root@bigdata114:/root/training

启动

在bigdata112上面启动集群

java 复制代码
start-all.sh

对部署是否成功进行测试

1、准备数据

2、将本地文件上传到hdfs

3、执行wordcount程序

进入/root/training/hadoop-2.7.3/share/hadoop/mapreduce/

java 复制代码
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output/wc

4、查看结果

java 复制代码
hdfs dfs -ls /output/wc
hdfs dfs -cat /output/wc/part-r-00000

5、停止集群

java 复制代码
 stop-all.sh

测试完成!部署成功 !!

相关推荐
武子康18 小时前
大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区(离线数仓 ODS
大数据·后端·apache hive
SelectDB2 天前
易车 × Apache Doris:构建湖仓一体新架构,加速 AI 业务融合实践
大数据·agent·mcp
武子康2 天前
大数据-241 离线数仓 - 实战:电商核心交易数据模型与 MySQL 源表设计(订单/商品/品类/店铺/支付)
大数据·后端·mysql
茶杯梦轩2 天前
从零起步学习RabbitMQ || 第三章:RabbitMQ的生产者、Broker、消费者如何保证消息不丢失(可靠性)详解
分布式·后端·面试
IvanCodes2 天前
一、消息队列理论基础与Kafka架构价值解析
大数据·后端·kafka
武子康3 天前
大数据-240 离线数仓 - 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL
大数据·后端·apache hive
回家路上绕了弯4 天前
深入解析Agent Subagent架构:原理、协同逻辑与实战落地指南
分布式·后端
字节跳动数据平台4 天前
5000 字技术向拆解 | 火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
武子康4 天前
大数据-239 离线数仓 - 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载
大数据·后端·apache hive
字节跳动数据平台5 天前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据