Hadoop3集群实战:从零开始的搭建之旅

目录=

一、概念

[1.1 Hadoop是什么](#1.1 Hadoop是什么)

[1.2 历史](#1.2 历史)

[1.3 三大发行版本(了解)](#1.3 三大发行版本(了解))

[1.4 优势](#1.4 优势)

[1.5 组成💗](#1.5 组成💗)

[1.6 HDFS架构](#1.6 HDFS架构)

[1.7 YARN架构](#1.7 YARN架构)

[1.8 MapReduce概述](#1.8 MapReduce概述)

[1.9 HDFS\YARN\MapReduce关系](#1.9 HDFS\YARN\MapReduce关系)

二、环境准备

[2.1 准备模版虚拟机](#2.1 准备模版虚拟机)

[2.2 安装必要软件](#2.2 安装必要软件)

[2.3 安装xshell](#2.3 安装xshell)

[2.4 创建用户并赋予root权限](#2.4 创建用户并赋予root权限)

[2.5 克隆虚拟机](#2.5 克隆虚拟机)

[2.6 时间同步](#2.6 时间同步)

[2.7 ssh免密登录](#2.7 ssh免密登录)

[2.8 xsync脚本分发](#2.8 xsync脚本分发)

[2.9 安装JDK和Mysql](#2.9 安装JDK和Mysql)

安装jdk(三个节点)

安装mysql(主节点)目前不需要

三、完全分布式集群搭建

[3.1 安装hadoop(三台)](#3.1 安装hadoop(三台))

[3.2 集群部署](#3.2 集群部署)

[3.2.1 部署规划](#3.2.1 部署规划)

[3.2.2 配置文件(三台)](#3.2.2 配置文件(三台))

[3.2.3 启动集群](#3.2.3 启动集群)

参考:


一、概念

1.1 Hadoop是什么

  • apache的分布式系统基础架构
  • Hadoop实际上是一个生态圈,里面有多个组件,主要解决海量数据存储和分析计算问题

1.2 历史

  • Hadoop是Apache Lucene创始人Doug Cutting 创建的 。最早起源于Nutch,它是Lucene的子项目。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。
  • 2003年Google发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。
  • 2004年 Google发表论文向全世界介绍了谷歌版的MapReduce系统。
  • 同时期,以谷歌的论文为基础,Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP
  • 到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。
  • 2006年Google发表了论文是关于BigTable的,这促使了后来的Hbase的发展。

因此,Hadoop及其生态圈的发展离不开Google的贡献。

1.3 三大发行版本(了解)

  • Apache 最基础的版本,完全开源免费
  • CDH,集成了大数据框架 发行版本
  • HDP,Ambari是HDP的安装工具和管理界面

Cloudera公司已经正式终止了对CDH的支持。分别在2021年12月、2022年3月,Cloudera正式终止了对HDP(Hortonworks Data Platform)及CDH的支持

后续推出CDP,新一代数据平台产品,它整合了HDP和CDH的功能并进行了优化和扩展。

1.4 优势

  1. 高可靠性:底层维护多个数据副本,避免故障时数据丢失
  2. 高扩展性:集群间分配任务数据,方便扩展节点,动态扩容缩减
  3. 高效性:并行工作
  4. 高容错性:自动将失败的任务重新分配

1.5 组成💗

Hadoop1.x、2.x、3.x的区别

  • Hadoop1.*中MapReduce中计算和资源调度同时处理,耦合性比较大
  • Hadoop2.*新增了YARN进行资源调度,MapReduce只用来计算
  • Hadoop2和3在组成上没有区别

1.6 HDFS架构

分布式文件系统

  • NameNode 数据存储位置(存储文件元数据,如:文件名 目录结构 文件属性 所在位置),相当于目录
  • DataNode 存储数据,相当于内容
  • 2NN 辅助NameNode工作(每隔一段时间对NameNode做数据备份)

1.7 YARN架构

资源管理器

  • Resource Manager 集群资源管理(内存、cup)
  • Node Manager 单节点资源管理
  • Container 容器,相当于一台独立服务器
  • ApplicationMaster,单个任务资源管理

1.8 MapReduce概述

  • map阶段,并行处理输入数据
  • reduce阶段,对map结果汇总

1.9 HDFS\YARN\MapReduce关系

大数据技术生态体系

二、环境准备

目标:需要准备3台虚拟机(本次使用Ubuntu24.04,但是教程大多是Centos,大差不差),机器名为hadoop102、hadoop103、hadoop104,对应ip:192.168.10.102、192.168.10.103、192.168.10.104

2.1 准备模版虚拟机

软件操作系统安装参考:(这部分没有详细记录,一般使参考视频和博客,要细心)

VMware 虚拟机图文安装和配置 Ubuntu Server 22.04 LTS 教程_00-installer-config.yaml-CSDN博客

19_尚硅谷_Hadoop_入门_Centos7.5软硬件安装_哔哩哔哩_bilibili

  • 配置静态ip 192.168.10.100,nat桥接模式
  • 配置文件修改/etc/netplan
  • 配置主机名称和ip映射:修改服务器hosts文件 192.168.10.100 hadoop100
  • 修改一些配置虚拟机和windows上的

2.2 安装必要软件

安装vim、iputils-ping、net-tools、rsync(一般安装最小体积的server版本才需要安装这些)

  • sudo apt install vim
  • sudo apt update
  • sudo apt-get update
  • sudo apt install iputils-ping
  • sudo apt install net-tools
  • sudo apt install rsync

测试网络:ping www.baidu.com

测试:ip ifconfig

2.3 安装xshell

c21_尚硅谷_Hadoop_入门_Xshell远程访问工具_哔哩哔哩_bilibili参考:21_尚硅谷_Hadoop_入门_Xshell远程访问工具_哔哩哔哩_bilibili

主要是做本机和虚拟机的交互和文件上传。因为本地安装了termius就不需要这个了,感觉termius更好用

2.4 创建用户并赋予root权限

给用户mlj root权限:vim /etc/sudoers

bash 复制代码
mlj ALL=(ALL:ALL) NOPASSWD:ALL

2.5 克隆虚拟机

  • 在vmware上克隆模版虚拟机
  • 修改ip和主机名分别为hadoop102 hadoop103 hadoop104
  • 修改ip和主机名的映射:vim /etc/hosts
bash 复制代码
192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

报错:使用termius进行root用户登录时报错:SSH配置不允许root登录

  • 修改/etc/ssh/sshd_config PermitRootLogin:yes
  • 重启生效sudo systemctl restart sshd

2.6 时间同步

如果服务器在公网环境(能连接外网),可以不采用集群时间同步

  • 安装ntp时间同步服务器(所有节点):apt install ntp
  • 查看状态、启动、设置开机自启
bash 复制代码
systemctl status ntpdsec

systemctl start ntpsec

systemctl enable ntpsec
  • 重启服务器:reboot
  • 所有节点设置时区:中国上海 timedatectl set-timezone Asia/Shanghai
  • 修改配置同步时间的机器 vim /etc/ntpsec/ntp.conf
bash 复制代码
#注释(主节点需要,子节点注释掉)
#集群在局域网中,不使用其他互联网上的时间
pool 0.ubuntu.pool.ntp.org iburst
pool 1.ubuntu.pool.ntp.org iburst
pool 2.ubuntu.pool.ntp.org iburst
pool 3.ubuntu.pool.ntp.org iburst
#pool ntp.ubuntu.com

#(子节点配置,使用102作为时间同步机器)
server hadoop102

#当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
#(所有节点需要)
server 127.127.1.0fudge 
127.127.1.0 stratum 10

#授权网段(主节点需要)
restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
  • ntpq -p 查看同步情况

问题:时间和windows实践不一致

(1)安装ntpdate工具:sudo apt-get install ntpdate

(2)同步系统时间与网络时间:sudo ntpdate cn.pool.ntp.org

(3)其他节点同步hadoop102的时间: sudo ntpdate hadoop102

2.7 ssh免密登录

~/.ssh/

(1)102生成公私钥 三次回车 ssh-keygen -t rsa

(2)copy公钥到102 103 104 (本机也要配置)ssh-copy-id hadoop103

(3)103、104执行相同的步骤

(4)验证:ssh hadoop103

2.8 xsync脚本分发

(1)编写分发脚本xsync

注意:每台机器都要有rsync才能分发成功

/home/mlj/bin目录下,新建xsync

bash 复制代码
#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
  echo ====================  $host  ====================
  #3. 遍历所有目录,挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

(2)修改xsync环境变量,否则找不到该命令

export PATH=$PATH:/home/mlj/bin

注意:rsync基于ssh服务需要配置秘钥,免密登录

2.9 安装JDK和Mysql

安装jdk(三个节点)

(1)下载上传到虚拟机:scp .\jdk-8u202-linux-x64.tar.gz [email protected]:/opt/soft/

(2)解压缩:sudo tar -zxvf jdk-8u202-linux-x64.tar.gz -C /opt/module/

(3)环境变量配置

bash 复制代码
#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_202

export PATH=$PATH:$JAVA_HOME/bin

(4)验证:java-version

安装mysql(主节点)目前不需要

步骤:

  • 安装docker
  • 使用docker安装mysql
  • docker-compose启动mysql

问题:

(1)docker-compose报错,缺少python的一个包setuptools

  • 安装pipx :sudo apt install pipx
  • 安装包setuptools :sudo pipx install setuptools
  • docker-compose -version

(2)拉取镜像报错修复:Get "https://registry-1.docker.io/v2/": net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)

使用第三方镜像库:

AtomHub 可信镜像仓库平台 · OpenAtom Foundation

三、完全分布式集群搭建

3.1 安装hadoop(三台)

(1)上传hadoop包:tar -zxvf hadoop-3.4.1.tar.gz -C /opt/module

(2)解压缩 tar -zxvf hadoop-3.4.1.tar.gz -C /opt/module

(3)环境变量配置

bash 复制代码
#hadoop环境变量 
export HADOOP_HOME=/opt/module/hadoop-3.4.1 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

(4)集群配置

3.2 集群部署

3.2.1 部署规划
  • NameNode和SecondaryNameNode不要安装同一台
  • ResourceManager也很消耗内存,不要和NameNode和SecondaryNameNode配置在一台机器
3.2.2 配置文件(三台)

自定义配置文件 4个

配置core-site.xml

XML 复制代码
<!-- 指定 NameNode 的地址 -->
   <property>
       <name>fs.defaultFS</name>
       <value>hdfs://hadoop102:8020</value>
   </property>
   <!-- 指定 hadoop 数据的存储目录 -->
   <property>
       <name>hadoop.tmp.dir</name>
       <value>/opt/module/hadoop-3.4.1/data</value>
   </property>
   <!-- 配置 HDFS 网页登录使用的静态用户为 mlj -->
   <property>
       <name>hadoop.http.staticuser.user</name>
       <value>mlj</value>
   </property>

hdfs-site.xml

bash 复制代码
<!-- nn web 端访问地址-->
<property>
   <name>dfs.namenode.http-address</name>
   <value>hadoop102:9870</value>
</property>
<!-- 2nn web 端访问地址-->
<property>
   <name>dfs.namenode.secondary.http-address</name>
   <value>hadoop104:9868</value>
</property>
<!--HDFS 中是否启用权限检查-->
<property>
   <name>dfs.permissions</name>
   <value>false</value>
</property>

yarn-site.xml

bash 复制代码
<!-- Site specific YARN configuration properties -->
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>
<!-- 指定 ResourceManager 的地址-->
<property>
   <name>yarn.resourcemanager.hostname</name>
   <value>hadoop10</value>
</property>
<!--是否将对容器实施虚拟内存限制-->
<property>
   <name>yarn.nodemanager.vmem-check-enabled</name>
   <value>false</value>
</property>

mapred-site.xml

bash 复制代码
<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

配置works(不能有空格换行!)

bash 复制代码
hadoop102

hadoop103

hadoop104
3.2.3 启动集群
  • 配置目录权限

sudo chmod -R a+w /opt/module/hadoop-3.4.1/

  • 初次启动初始化(初始化失败可能是没有权限,执行上一步)

hdfs namenode -format

bash 复制代码
export JAVA_HOME=/opt/module/jdk1.8.0_202

参考:

尚硅谷大数据Hadoop教程,hadoop3.x搭建到集群调优,百万播放_哔哩哔哩_bilibili

Hadoop3.1.4完全分布式集群搭建_hadoop 3.1.4-CSDN博客

相关推荐
Hello World......10 分钟前
Java求职面试:从核心技术到大数据与AI的场景应用
大数据·java面试·技术栈·互联网大厂·ai服务
python算法(魔法师版)2 小时前
.NET NativeAOT 指南
java·大数据·linux·jvm·.net
星川皆无恙2 小时前
大模型学习:Deepseek+dify零成本部署本地运行实用教程(超级详细!建议收藏)
大数据·人工智能·学习·语言模型·架构
L耀早睡3 小时前
mapreduce打包运行
大数据·前端·spark·mapreduce
姬激薄3 小时前
MapReduce打包运行
大数据·mapreduce
计算机人哪有不疯的3 小时前
Mapreduce初使用
大数据·mapreduce
菜鸟冲锋号3 小时前
Flink SQL、Hudi 、Doris在数据上的组合应用
大数据·flink
尘世壹俗人4 小时前
hadoop.proxyuser.代理用户.授信域 用来干什么的
大数据·hadoop·分布式
鸿乃江边鸟5 小时前
Starrocks的主键表涉及到的MOR Delete+Insert更新策略
大数据·starrocks·sql
maozexijr7 小时前
Flink 的任务槽和槽共享
大数据·flink