Hadoop完全分布式环境部署

  1. 准备3台虚拟机,使用ping命令确保虚拟机能够联网,以root用户身份分别在三台虚拟机完成以下系统配置:

(1)在三台虚拟机分别使用yum安装epel-release

(2)在三台虚拟机分别关闭防火墙,保证虚拟机间能够互相ping通

(3)在三台虚拟机分别创建hadoop用户,并配置sudo

(4)在三台虚拟机中分别创建/opt/module, /opt/software 文件夹,并将目录的所有者和所属群组改为haoop用户

(5)在三台虚拟机中卸载自带jdk

提示: rpm -qa | grep java | xargs -n1 rpm -e --nodeps

(6)修改主机名称(/etc/hosts),分别为hadoopxx hadoopxx hadoopxx(xx用自己名字拼音首字母替换)

(7)配置hosts文件,将主机名与IP进行映射

(8)检查上述配置是否生效,不生效可重启虚拟机

2、切换到hadoop身份,分别在三台虚拟机安装JDK

(1)上传JDK安装包到/opt/software,解压安装到/opt/module

(2)配置环境变量,在/etc/profile.d目录下创建自己的环境变量配置文件my_env.sh

(3)添加环境变量JAVA_HOME, 并将JAVA_HOME/bin添加到PATH目录

(4)用source命令使环境变量设置生效

(5)查看JDK是否安装成功

3、以hadoop身份,分别在三台虚拟机继续安装Hadoop

(1)下载Hadoop-3.1.3.tar.gz到/opt/software,解压安装到/opt/module

(2)在my_env.sh文件添加HADOOP_HOME环境变量,并追加到PATH环境变量

(3)用source命令使环境变量生效

(4)配置无密码登录,确保主机间能够以hadoop身份通过ssh无密码互相访问(包括自己)

4.集群配置

(1)集群规划如下:

第一个节点: NameNode、DataNode、NodeManager

第二个节点: DataNode、ResourceManager、NodeManager

第三个节点:Secondary NameNode, DataNode,NodeManager

(2)在一台机器配置:core-site.xml 、hdfs-site.xml、yarn-site.xml、mapred-site.xml、workers文件

(3)将配置文件同步到其它两个节点

(4)启动hdfs

(5)启动yarn

(6)浏览器测试hdfs、yarn

相关推荐
老四敲代码几秒前
Spark 机器学习提速指南
大数据·分布式·spark
道一云黑板报3 分钟前
Spark SQL:用SQL玩转大数据
大数据·sql·spark
延凡科技42 分钟前
延凡科技光伏清洗预测系统
大数据·运维·人工智能·科技·无人机·智慧城市
菜鸟冲锋号1 小时前
数据建设之明细层指标和汇总层指标结合方式
大数据·机器学习·数据挖掘
青云交1 小时前
Java 大视界 -- Java 大数据在智能医疗电子病历数据分析与临床决策支持中的应用(382)
java·大数据·数据分析·flink·电子病历·智能医疗·临床决策
楠奕1 小时前
linux查看kafka的消费组里是否有积压
分布式·kafka
老四敲代码1 小时前
Kafka-Eagle 安装
分布式·kafka
拓端研究室1 小时前
专题:2025生命科学与生物制药全景报告:产业图谱、投资方向及策略洞察|附130+份报告PDF、原数据表汇总下载
大数据·人工智能
AI 嗯啦1 小时前
机械学习中的一些优化算法(以逻辑回归实现案例来讲解)
大数据·算法·逻辑回归
大力财经2 小时前
腾耘家族:爱心手拉手搭建家校共育桥梁,让爱与沟通常驻家庭
大数据