尚硅谷课程【笔记】——大数据之Hadoop【一】

课程视频链接：尚硅谷Hadoop2.x框架入门

一、大数据概论

1）大数据概念

大数据（Big Data）：指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据主要解决：海量数据（TB、PB、EB）的存储和海量数据的分析计算。

2）大数据特点（5V）

Volume （大量）：数据规模巨大，从TB到PB甚至EB级别。
Velocity**（高速）**：数据生成、处理和分析的速度快（如实时流数据）。
Variety （多样）：数据类型的多样性（结构化、半结构化、非结构化数据等）。

起源：2001年由Gartner分析师Doug Laney首次提出，作为大数据的核心定义

Veracity（真实性）：数据的质量和可信度（如噪声、不确定性、数据来源的可靠性）。

背景：IBM等企业强调数据质量对分析结果的影响，因此将其纳入核心特征。

Value （价值）：指的是数据价值密度相对较低，即海量数据中只有少数是有价值的信息

3）大数据部门组织结构

二、从Hadoop框架讨论大数据生态

1）Hadoop是什么？

Hadoop是由Apache基金会所开发的分布式系统基础架构。
从广义上来说，Hadoop指一个更广泛的概念------Hadoop生态圈。

2）Hadoop三大发行版本

Hadoop三大发行版本：Apache、Cloudera、Hortonworkds

Apache版本是最原始、最基础的版本，对入门学习最好。

Xloudera在大型互联网企业中用的较多（收费）。

Hortonworks文档较好。

Apache Hadoop：

官网地址：https://hadoop.apache.org/releases.html

3）Hadoop的优势

1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。

2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3）高效性：在MpaReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

4）高容错性：能够自动将失败的任务重新分配。

4）Hadoop组成（重点）

在Hadoop1.x中，MapReduce同时处理业务逻辑运算 和资源调度 ，耦合性较大；在Hadoop2.x中，增加了Yarn部分，由Yarn负责资源的调度，降低了耦合性。

HDFS架构概述

1）NameNode（nn）：存储文件的元数据（文件名、文件目录结构文件属性等），以及每个文件的块列表和块所在的DataNode等。

2）DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。

3）Secondary NameNode（2nn）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

Yarn架构概述

1）**ResourceManager（RM）**主要作用：

（1）处理客户端请求

（2）监控NodeManager

（3）启动或监控ApplicationMaster

（4）资源的分配和调度

2）**NodeManager（NM）**主要作用：

（1）管理单个节点上的资源

（2）处理来自ResourceManager的命令

（3）处理来自ApplicationMaster的命令

3）**ApplicationMaster（AM）**作用：

（1）负责数据的切分

（2）为应用程序申请资源，并分配给内部的任务

（3）任务的监控与容错

4）Container

Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。

MapReduce架构概述

MapReduce将计算分为两个阶段：Map阶段 和Reduce阶段

1）Map阶段负责并行处理输入数据

2）Reduce阶段对Map结果进行汇总