复习打卡大数据篇——Apache Hadoop

筒栗子2024-12-19 9:27

1. Hadoop简介

Hadoop概念：

Hadoop是一个分布式系统基础架构，主要是为了解决海量数据的存储和海量数据的分析计算问题。组件包括：HDFS，是一个具有高可靠性、高吞吐量的分布式文件系统，用于数据存储；MapReduce用于处理业务逻辑运算；YARN负责作业调度与集群资源管理。

Hadoop特性：

**扩容能力：**Hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可用方便的扩展到数以千计的节点中。
**成本低：**Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据，以至于成本很低。
**高效率：**通过并发数据，Hadoop可以在节点之间动态并行的移动数据，使得速度非常快。
**可靠性：**能自动维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

Hadoop集群简介：

HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。

HDFS集群：解决了海量数据存储分布式存储系统

YARN集群：集群资源管理任务调度

Hadoop部署模式：

**Standalone mode（独立模式）：**又称为单机模式，仅1个机器运行1个java进程，主要用于调试。
**Pseudo-Distributed mode（伪分布式模式）：**也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager，但分别启动单独的java进程，主要用于调试。
**Cluster mode（集群模式）：**集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下，主节点和从节点会分开部署在不同的机器上。
**高可用（持续可用）集群 HA ：**在分布式的模式下给主角色设置备份角色，实现了容错的功能解决了单点故障，保证集群持续可用性。

集群webUI：

一旦Hadoop集群启动并运行，可以通过web-ui进行集群查看：