Hadoop简介以及集群搭建详细过程

Hadoop简介以及集群搭建详细过程

hadoop集群简介

  • hadoop加群包括两个集群:hdfs集群,yarn集群
  • 两个集群逻辑上分离,通常物理上在一起
  • 两个集群都是标准的主从架构集群
  • 逻辑上分离:两个集群相互之间没有依赖,互不影响
  • 物理上在一起:某些角色今晚往往部署在同一台物理服务器上
  • MapReduce集群呢?
    • MapReduce是计算框架、代码层面的组件没有集群之说

hadoop部署模式

Hadoop集群安装

1.集群角色规划

  • 角色规划的准则
    • 根据软件工作特性和服务器硬件资源情况合理分配
    • 比如依赖内存工作的namanode是不是不花在大内存机器上
  • 角色规划注意事项
    • 资源上有抢夺冲突的,尽量不要部署在一起
    • 共偶作上需要相互配合的,尽量部署在一起

2.服务器基础环境准备

  • 防火墙关闭(三台机器)
    • systemctl stop firewalld. service #关闭防火墙
    • systemtl disable firewalld. service #禁止防火墙开启自启
  • ssh免密登录(node1执行--->node1|node2|node3)
    • ssh-keygen #四个回车 生成公钥、私钥
    • ssh-copy-id node1,ssh-cpoy-id node2,ssh-coppy-id node3
  • 集群时间同步(三台机器)
  • JDK 1.8安装(三台机器)

3.上传安装包

  • 创建同一工作目录(三台机器)
    • mkdir -p /export/server/ #软件安装路径
    • mkdir -p /export/data/ #数据安装路径
    • mkdir -p /export/softwarw/ #安装包存放路径
  • 上传、解压安装包
bash 复制代码
hadoop-3.1.4-bin-snappy-CentOS7.tar.gz
tar zvxf hadoop-3.1.4-bin-snappy-CentOS7.tar.gz -C /export/server

hadoop安装包目录结构

5.编辑hadoop配置文件

  • core-site.xml
    • cd /export/server/hadoop-3.1.4/etc/hadoop/
    • vim sore-site.xml
  • hafs-site.xml

    • cd /export/server/hadoop-3.1.4/etc/hadoop/
    • vim hdfs-site.xml
  • mapred-site.xml

    • cd /export/server/hadoop-3.1.4/etc/hadoop/
    • vim mared-site.xml
  • yarn-site.xml

    • cd /export/server/hadoop3.1.4/etc/hadoop
    • vim yarn-site.xml
  • workers

    • cd /export/server/hadoop-3.1.4/etc/hadoop
    • vim workers

6.分发安装包

  • 在node1机器上奖hadoop安装包scp同步到其他机器
    • cd /export/server/
    • scp -r hadoop-3.1.4 root@node2: /export/server/
    • scp -r hadoop-3.1.4 root@node3: /export/server/

7.配置hadoop环境变量

  • 在node1上配置hadoop换件变量
    • vim /etc/profile
    • export HADOOP_HOME=/export/server/hadoop-3.1.4
    • export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/bin
  • 将修改后的环境变量同步到其他机器
    • scp /etc/profile root@node2:/etc/
    • scp /etc/profile root@node3:/etc/
  • 重新加载环境变量,验证是否生效(三台机器)
    • sourece /etc/profile
    • hadoop #验证是否生效

8.NameNode format(格式化操作)

  • 首次启动hdfs时,必须对齐进行格式化操作
  • format本质上是初始化工作,进行hdfs清理和准备工作
  • 命令:hdfs namenode -format
  • 首次启动之前需要format操作
  • format只能进行一次,后续不在需要
  • 如果多次format除了造成数据丢失外,还会导致hdfs集群主从角色之间互不识别,通过删除所有机器hadoop.tmp.dir目录重新format解决

hadoop集群启动关闭-手动逐个进程启停

  • 每台机器上每次手动启动关闭一个角色进程
  • hdfs集群
    • hafs --daemon start namenode|datanode|decondarynamenoe
    • hafs --daemon stop namenode|datanode|decondarynamenoe
  • yarn集群
    • yarn --daemon start resourcemanager|nodemanager
    • yarn --daemon stop resourcemanager|nodemanager

shell脚本一键启停

相关推荐
Litluecat1 小时前
2026年6月1日科技热点新闻
大数据·人工智能·科技·推荐·热点·新闻·每日
志栋智能2 小时前
AI驱动无代码:降低巡检超自动化的门槛
大数据·运维·网络·人工智能·自动化
代码匠心2 小时前
从零开始学Flink:Flink CDC 入门
大数据·数据仓库·flink
Irene19912 小时前
基于现有的大数据开发实验环境,深入理解数据完整生命周期,工具配合使用,全流程练习
大数据·工具·开发环境·项目练习
Hefei GlobefishAI2 小时前
无人零售智能柜适合哪些场景?
大数据·零售
yjcode7892 小时前
探索游戏充值新纪元:友价源码技术革新之旅
大数据·人工智能·游戏·游戏交易
snow@li3 小时前
AI:理解 大数据、算法、算力、电力、生成式AI、token 之间的关系
大数据·人工智能·算法
oort1233 小时前
VLStream:全开源决策式AI视频平台,赋能企业构建自主可控、降本增效的智能视觉应用介绍
大数据·开发语言·人工智能·开源·音视频·数据库架构
TDengine (老段)3 小时前
TDengine 压缩编码机制 — 双层压缩架构与类型特化算法
大数据·数据库·物联网·算法·时序数据库·tdengine·涛思数据
标书畅畅行5 小时前
钛投标标书查重系统技术架构与功能实现解析
大数据·人工智能