尚硅谷课程【笔记】——大数据之Hadoop【一】

课程视频链接:尚硅谷Hadoop2.x框架入门

一、大数据概论

1)大数据概念

大数据(Big Data):指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

大数据主要解决:海量数据(TB、PB、EB)的存储和海量数据的分析计算

2)大数据特点(5V)

  • Volume (大量):数据规模巨大,从TB到PB甚至EB级别。

  • Velocity**(高速)**:数据生成、处理和分析的速度快(如实时流数据)。

  • Variety (多样):数据类型的多样性(结构化、半结构化、非结构化数据等)。

起源 :2001年由Gartner分析师Doug Laney首次提出,作为大数据的核心定义

  • Veracity(真实性):数据的质量和可信度(如噪声、不确定性、数据来源的可靠性)。

    背景 :IBM等企业强调数据质量对分析结果的影响,因此将其纳入核心特征。

  • Value (价值):指的是数据价值密度相对较低,即海量数据中只有少数是有价值的信息

3)大数据部门组织结构


二、从Hadoop框架讨论大数据生态

1)Hadoop是什么?

  • Hadoop是由Apache基金会所开发的分布式系统基础架构
  • 从广义上来说,Hadoop指一个更广泛的概念------Hadoop生态圈。

2)Hadoop三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworkds

Apache版本是最原始、最基础的版本,对入门学习最好。

Xloudera在大型互联网企业中用的较多(收费)。

Hortonworks文档较好。

Apache Hadoop:

官网地址:https://hadoop.apache.org/releases.html


3)Hadoop的优势

1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

3)高效性:在MpaReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

4)高容错性:能够自动将失败的任务重新分配。


4)Hadoop组成(重点)

在Hadoop1.x中,MapReduce同时处理业务逻辑运算资源调度耦合性较大;在Hadoop2.x中,增加了Yarn部分,由Yarn负责资源的调度,降低了耦合性。

HDFS架构概述

1)NameNode(nn):存储文件的元数据(文件名、文件目录结构文件属性等),以及每个文件的块列表和块所在的DataNode等。

2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

3)Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

Yarn架构概述

1)**ResourceManager(RM)**主要作用:

(1)处理客户端请求

(2)监控NodeManager

(3)启动或监控ApplicationMaster

(4)资源的分配和调度

2)**NodeManager(NM)**主要作用:

(1)管理单个节点上的资源

(2)处理来自ResourceManager的命令

(3)处理来自ApplicationMaster的命令

3)**ApplicationMaster(AM)**作用:

(1)负责数据的切分

(2)为应用程序申请资源,并分配给内部的任务

(3)任务的监控与容错

4)Container

Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。

MapReduce架构概述

MapReduce将计算分为两个阶段:Map阶段Reduce阶段

1)Map阶段负责并行处理输入数据

2)Reduce阶段对Map结果进行汇总


5)大数据技术生态体系

相关推荐
LB211227 分钟前
SQL隐式链接显式连接
大数据·数据库·sql
攻城狮7号30 分钟前
2025时序数据库选型,以IoTDB为主从架构基因到AI赋能来解析
大数据·物联网·时序数据库·apache iotdb·时序大模型·sql mcp·ainode
计算机毕业设计木哥1 小时前
计算机毕业设计 基于Python+Django的医疗数据分析系统
开发语言·hadoop·后端·python·spark·django·课程设计
金融小师妹3 小时前
基于哈塞特独立性表态的AI量化研究:美联储政策独立性的多维验证
大数据·人工智能·算法
打码人的日常分享10 小时前
运维服务方案,运维巡检方案,运维安全保障方案文件
大数据·运维·安全·word·安全架构
半夏陌离12 小时前
SQL 拓展指南:不同数据库差异对比(MySQL/Oracle/SQL Server 基础区别)
大数据·数据库·sql·mysql·oracle·数据库架构
howard200512 小时前
VMWare上搭建Hive集群
hive·hadoop
aristo_boyunv12 小时前
拦截器和过滤器(理论+实操)
java·数据仓库·hadoop·servlet
A小弈同学14 小时前
新规则,新游戏:AI时代下的战略重构与商业实践
大数据·人工智能·重构·降本增效·电子合同
字节跳动数据平台15 小时前
一客一策:Data Agent 如何重构大模型时代的智能营销?
大数据·agent