Hadoop学习笔记

视频地址

简介

  1. Hadoop是一个由Apache基金会所开发的分布式系统基础架构
  2. 主要解决海量数据的存储和海量数据的分析计算问题

Hadoop组成

1. 架构

2. HDFS(Hadoop Distributed FileSystem)

简称HDFS,是一个分布式文件系统

2.1. 架构

2.1.1 NameNode(nn)

存储文件的元数据,如文件名文件目录结构文件属性以及每个文件的块列表块所在的DataNode

2.1.2 DataNode(dn)

在本地文件系统存储文件块数据,以及块数据的校验和

2.1.3 Secnday NameNode(2nn)

每隔一段时间对NameNode元数据备份

3. YARN(YetAnother Resource Negotiator)

简称YARN,另一种资源协调者,是Hadoop的资源管理器

3.1 架构

  1. 客户端可能多个
  2. 集群上可以运行多个ApplicationMaster
  3. 每个NodeManager上可以有多个Container
3.1.1 Resource Manager(RM)

管理整个集群的内存和Cpu

3.1.2 Node Manager(NM)

管理单节点的内存和Cpu

3.1.3 ApplicationMaster(AM)

单个任务运行的老大

3.1.4 Container

相当一台独立的服务器,里面封装了运行所需要的资源

4. MapReduce

4.1 架构

4.1.1 Map
4.1.2 Reduce
相关推荐
yumgpkpm1 小时前
腾讯云TBDS与CDH迁移常见问题有哪些?建议由CDH迁移到CMP 7.13 平台(类Cloudera CDP,如华为鲲鹏 ARM 版)
hive·hadoop·zookeeper·flink·spark·kafka·hbase
yumgpkpm1 天前
数据可视化AI、BI工具,开源适配 Cloudera CMP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)值得推荐?
人工智能·hive·hadoop·信息可视化·kafka·开源·hbase
干就完事了1 天前
Hive视图
数据仓库·hive·hadoop
Linux Huang1 天前
【Dinky】IDEA运行出现HistoryServer异常
java·hadoop·flink·intellij idea
A尘埃1 天前
Hive基于Hadoop的数据仓库工具
数据仓库·hive·hadoop
Macbethad2 天前
使用WPF编写一个多维度伺服系统的程序
大数据·hadoop·wpf
杂家2 天前
Hive on Spark && Spark on Hive配置
大数据·数据仓库·hive·hadoop·spark
沧海寄馀生3 天前
Apache Hadoop生态组件部署分享-Hadoop
大数据·hadoop·分布式·apache
毕设源码-朱学姐3 天前
【开题答辩全过程】以 基于Hadoop的豆瓣电影数据分析系统设计与实现为例,包含答辩的问题和答案
大数据·hadoop·分布式
@小红花3 天前
从零到精通 Hadoop 的系统学习文档
大数据·hadoop·学习