Hadoop学习笔记

视频地址

简介

  1. Hadoop是一个由Apache基金会所开发的分布式系统基础架构
  2. 主要解决海量数据的存储和海量数据的分析计算问题

Hadoop组成

1. 架构

2. HDFS(Hadoop Distributed FileSystem)

简称HDFS,是一个分布式文件系统

2.1. 架构

2.1.1 NameNode(nn)

存储文件的元数据,如文件名文件目录结构文件属性以及每个文件的块列表块所在的DataNode

2.1.2 DataNode(dn)

在本地文件系统存储文件块数据,以及块数据的校验和

2.1.3 Secnday NameNode(2nn)

每隔一段时间对NameNode元数据备份

3. YARN(YetAnother Resource Negotiator)

简称YARN,另一种资源协调者,是Hadoop的资源管理器

3.1 架构

  1. 客户端可能多个
  2. 集群上可以运行多个ApplicationMaster
  3. 每个NodeManager上可以有多个Container
3.1.1 Resource Manager(RM)

管理整个集群的内存和Cpu

3.1.2 Node Manager(NM)

管理单节点的内存和Cpu

3.1.3 ApplicationMaster(AM)

单个任务运行的老大

3.1.4 Container

相当一台独立的服务器,里面封装了运行所需要的资源

4. MapReduce

4.1 架构

4.1.1 Map
4.1.2 Reduce
相关推荐
后端码匠3 小时前
【Hadoop】伪分布式安装
大数据·hadoop·分布式
Freedom℡6 小时前
Spark,连接MySQL数据库,添加数据,读取数据
数据库·hadoop·spark
.又是新的一天.9 小时前
02_Servlet
hive·hadoop·servlet
wuli玉shell9 小时前
Bitmap原理及Hive去重方式对比
数据仓库·hive·hadoop
Hello World......13 小时前
Java求职面试揭秘:从Spring到微服务的技术挑战
大数据·hadoop·spring boot·微服务·spark·java面试·互联网大厂
yyywoaini~1 天前
序列化和反序列化hadoop实现
hadoop·eclipse·php
薇晶晶1 天前
hadoop中spark基本介绍
hadoop
hnlucky1 天前
Windows 上安装下载并配置 Apache Maven
java·hadoop·windows·学习·maven·apache
尘世壹俗人1 天前
hadoop.proxyuser.代理用户.授信域 用来干什么的
大数据·hadoop·分布式
2401_cf2 天前
为什么hadoop不用Java的序列化?
java·hadoop·eclipse