Hadoop学习笔记

视频地址

简介

  1. Hadoop是一个由Apache基金会所开发的分布式系统基础架构
  2. 主要解决海量数据的存储和海量数据的分析计算问题

Hadoop组成

1. 架构

2. HDFS(Hadoop Distributed FileSystem)

简称HDFS,是一个分布式文件系统

2.1. 架构

2.1.1 NameNode(nn)

存储文件的元数据,如文件名文件目录结构文件属性以及每个文件的块列表块所在的DataNode

2.1.2 DataNode(dn)

在本地文件系统存储文件块数据,以及块数据的校验和

2.1.3 Secnday NameNode(2nn)

每隔一段时间对NameNode元数据备份

3. YARN(YetAnother Resource Negotiator)

简称YARN,另一种资源协调者,是Hadoop的资源管理器

3.1 架构

  1. 客户端可能多个
  2. 集群上可以运行多个ApplicationMaster
  3. 每个NodeManager上可以有多个Container
3.1.1 Resource Manager(RM)

管理整个集群的内存和Cpu

3.1.2 Node Manager(NM)

管理单节点的内存和Cpu

3.1.3 ApplicationMaster(AM)

单个任务运行的老大

3.1.4 Container

相当一台独立的服务器,里面封装了运行所需要的资源

4. MapReduce

4.1 架构

4.1.1 Map
4.1.2 Reduce
相关推荐
卷毛迷你猪10 小时前
快速实验篇(A1)干旱气象数据上传至HDFS
大数据·hadoop·hdfs
头歌实践平台12 小时前
Hadoop开发环境搭建
java·大数据·hadoop
KANGBboy21 小时前
hadoop冷热数据分离
大数据·hadoop·分布式
WL_Aurora1 天前
YARN资源调度器深度解析 | 架构原理、作业提交流程
大数据·hadoop·yarn
vivo互联网技术2 天前
vivo 万台规模 YARN 集群升级实践
大数据·hadoop·yarn
黄金矿工Kingliu2 天前
经典hadoop案例应用(命令实现版)
大数据·服务器·hadoop
卷毛迷你猪2 天前
小肥柴的Hadoop之旅 快速实验篇(0-1)虚拟机模拟完全分布式环境搭建
大数据·hadoop·分布式
飞火流星020272 天前
Hadoop3.1.1集群+Hive3.1.0环境安装
大数据·hadoop·分布式·hadoop3.1.1集群安装·hive3.1.0安装
咖啡里的茶i2 天前
在Docker环境中安装Hadoop cluster 实验报告一
hadoop·docker·容器
白日与明月3 天前
Hive分桶机制应用
数据仓库·hive·hadoop