Hadoop学习笔记

视频地址

简介

  1. Hadoop是一个由Apache基金会所开发的分布式系统基础架构
  2. 主要解决海量数据的存储和海量数据的分析计算问题

Hadoop组成

1. 架构

2. HDFS(Hadoop Distributed FileSystem)

简称HDFS,是一个分布式文件系统

2.1. 架构

2.1.1 NameNode(nn)

存储文件的元数据,如文件名文件目录结构文件属性以及每个文件的块列表块所在的DataNode

2.1.2 DataNode(dn)

在本地文件系统存储文件块数据,以及块数据的校验和

2.1.3 Secnday NameNode(2nn)

每隔一段时间对NameNode元数据备份

3. YARN(YetAnother Resource Negotiator)

简称YARN,另一种资源协调者,是Hadoop的资源管理器

3.1 架构

  1. 客户端可能多个
  2. 集群上可以运行多个ApplicationMaster
  3. 每个NodeManager上可以有多个Container
3.1.1 Resource Manager(RM)

管理整个集群的内存和Cpu

3.1.2 Node Manager(NM)

管理单节点的内存和Cpu

3.1.3 ApplicationMaster(AM)

单个任务运行的老大

3.1.4 Container

相当一台独立的服务器,里面封装了运行所需要的资源

4. MapReduce

4.1 架构

4.1.1 Map
4.1.2 Reduce
相关推荐
TTBIGDATA7 小时前
【Knox编译】webhdfs-test 依赖收敛冲突问题处理
大数据·hadoop·ambari·hdp·kerberos·knox·bigtop
心止水j12 小时前
hive问题
数据仓库·hive·hadoop
心止水j13 小时前
hive桶
数据仓库·hive·hadoop
心止水j13 小时前
hive 分区总结
数据仓库·hive·hadoop
走遍西兰花.jpg13 小时前
在hive中实现拉链表的更新和merge into
数据仓库·hive·hadoop
zgl_2005377914 小时前
ZGLanguage 解析SQL数据血缘 之 提取子查询语句中的源表名
大数据·数据库·数据仓库·hive·hadoop·sql·etl
qq_124987075314 小时前
基于Hadoop的黑龙江旅游景点推荐系统的设计与实现(源码+论文+部署+安装)
大数据·hadoop·分布式·python·信息可视化
laocooon52385788614 小时前
大专Hadoop课程考试方案设计
大数据·hadoop·分布式
是阿威啊14 小时前
【用户行为归因分析项目】- 【企业级项目开发第五站】数据采集并加载到hive表
大数据·数据仓库·hive·hadoop·spark·scala
zhixingheyi_tian15 小时前
Yarn 之 nodemanager.containermanager.container
hadoop