Hadoop学习笔记

视频地址

简介

  1. Hadoop是一个由Apache基金会所开发的分布式系统基础架构
  2. 主要解决海量数据的存储和海量数据的分析计算问题

Hadoop组成

1. 架构

2. HDFS(Hadoop Distributed FileSystem)

简称HDFS,是一个分布式文件系统

2.1. 架构

2.1.1 NameNode(nn)

存储文件的元数据,如文件名文件目录结构文件属性以及每个文件的块列表块所在的DataNode

2.1.2 DataNode(dn)

在本地文件系统存储文件块数据,以及块数据的校验和

2.1.3 Secnday NameNode(2nn)

每隔一段时间对NameNode元数据备份

3. YARN(YetAnother Resource Negotiator)

简称YARN,另一种资源协调者,是Hadoop的资源管理器

3.1 架构

  1. 客户端可能多个
  2. 集群上可以运行多个ApplicationMaster
  3. 每个NodeManager上可以有多个Container
3.1.1 Resource Manager(RM)

管理整个集群的内存和Cpu

3.1.2 Node Manager(NM)

管理单节点的内存和Cpu

3.1.3 ApplicationMaster(AM)

单个任务运行的老大

3.1.4 Container

相当一台独立的服务器,里面封装了运行所需要的资源

4. MapReduce

4.1 架构

4.1.1 Map
4.1.2 Reduce
相关推荐
大鳥1 天前
数据仓库知识体系
hive·hadoop
计算机毕业编程指导师1 天前
大数据可视化毕设:Hadoop+Spark交通分析系统从零到上线 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·城市交通
计算机毕业编程指导师1 天前
【计算机毕设选题】基于Spark的车辆排放分析:2026年热门大数据项目 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·车辆排放
talle20211 天前
Hive | 行列转换
数据仓库·hive·hadoop
talle20211 天前
Hive | json数据处理
hive·hadoop·json
CTO Plus技术服务中1 天前
Hive开发与运维教程
数据仓库·hive·hadoop
ha_lydms1 天前
Hadoop 架构
大数据·hadoop·hdfs·架构·mapreduce·yarn·数据处理
小邓睡不饱耶2 天前
Sqoop 实战:数据迁移核心案例、优化技巧与企业级落地
hive·hadoop·sqoop
沃达德软件2 天前
重点人员动态管控系统解析
数据仓库·人工智能·hive·hadoop·redis·hbase
ruxshui2 天前
个人笔记: 星环Inceptor/hive普通分区表与范围分区表核心技术总结
hive·hadoop·笔记