简介
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构
- 主要解决海量数据的存储和海量数据的分析计算问题
Hadoop组成
1. 架构
2. HDFS(Hadoop Distributed FileSystem)
简称HDFS,是一个分布式文件系统
2.1. 架构
2.1.1 NameNode(nn)
存储文件的元数据,如文件名
、文件目录结构
、文件属性
以及每个文件的块列表
和块所在的DataNode
等
2.1.2 DataNode(dn)
在本地文件系统存储文件块数据
,以及块数据的校验和
2.1.3 Secnday NameNode(2nn)
每隔一段时间对NameNode元数据备份
3. YARN(YetAnother Resource Negotiator)
简称YARN,另一种资源协调者,是Hadoop的资源管理器
3.1 架构
- 客户端可能多个
- 集群上可以运行多个ApplicationMaster
- 每个NodeManager上可以有多个Container
3.1.1 Resource Manager(RM)
管理整个集群的内存和Cpu
3.1.2 Node Manager(NM)
管理单节点的内存和Cpu
3.1.3 ApplicationMaster(AM)
单个任务运行的老大
3.1.4 Container
相当一台独立的服务器,里面封装了运行所需要的资源