Hadoop学习笔记

视频地址

简介

  1. Hadoop是一个由Apache基金会所开发的分布式系统基础架构
  2. 主要解决海量数据的存储和海量数据的分析计算问题

Hadoop组成

1. 架构

2. HDFS(Hadoop Distributed FileSystem)

简称HDFS,是一个分布式文件系统

2.1. 架构

2.1.1 NameNode(nn)

存储文件的元数据,如文件名文件目录结构文件属性以及每个文件的块列表块所在的DataNode

2.1.2 DataNode(dn)

在本地文件系统存储文件块数据,以及块数据的校验和

2.1.3 Secnday NameNode(2nn)

每隔一段时间对NameNode元数据备份

3. YARN(YetAnother Resource Negotiator)

简称YARN,另一种资源协调者,是Hadoop的资源管理器

3.1 架构

  1. 客户端可能多个
  2. 集群上可以运行多个ApplicationMaster
  3. 每个NodeManager上可以有多个Container
3.1.1 Resource Manager(RM)

管理整个集群的内存和Cpu

3.1.2 Node Manager(NM)

管理单节点的内存和Cpu

3.1.3 ApplicationMaster(AM)

单个任务运行的老大

3.1.4 Container

相当一台独立的服务器,里面封装了运行所需要的资源

4. MapReduce

4.1 架构

4.1.1 Map
4.1.2 Reduce
相关推荐
阿杰同学2 天前
Hadoop 面试题及答案整理,最新面试题
大数据·hadoop·分布式
皓空揽月2 天前
Ubuntu 单机安装 Hadoop 3.2.4教程
linux·hadoop·ubuntu
写代码的【黑咖啡】2 天前
HDFS简介及其存储机制详解
大数据·hadoop·hdfs
俊哥大数据3 天前
【项目实战1】大数据项目开发案例---新闻资讯离线分析|实时分析|大数据仓库|推荐系统|数据可视化项目
数据仓库·hadoop·flink·spark·推荐系统·实时分析·离线分析
忘记9263 天前
Servlet 生命周期
数据仓库·hive·hadoop
zhixingheyi_tian3 天前
HDFS 之 Client 调试
大数据·hadoop·hdfs
天天向上杰3 天前
小识:从理财数仓角度看GaussDB、PostgreSQL、Hive 三区别
hive·hadoop·gaussdb
路边草随风3 天前
java操作cosn使用
java·大数据·hadoop
码以致用4 天前
Hive笔记
hive·hadoop·笔记
路边草随风4 天前
通过hive元数据库查询表信息
大数据·数据库·hive·hadoop