Hadoop学习笔记

视频地址

简介

  1. Hadoop是一个由Apache基金会所开发的分布式系统基础架构
  2. 主要解决海量数据的存储和海量数据的分析计算问题

Hadoop组成

1. 架构

2. HDFS(Hadoop Distributed FileSystem)

简称HDFS,是一个分布式文件系统

2.1. 架构

2.1.1 NameNode(nn)

存储文件的元数据,如文件名文件目录结构文件属性以及每个文件的块列表块所在的DataNode

2.1.2 DataNode(dn)

在本地文件系统存储文件块数据,以及块数据的校验和

2.1.3 Secnday NameNode(2nn)

每隔一段时间对NameNode元数据备份

3. YARN(YetAnother Resource Negotiator)

简称YARN,另一种资源协调者,是Hadoop的资源管理器

3.1 架构

  1. 客户端可能多个
  2. 集群上可以运行多个ApplicationMaster
  3. 每个NodeManager上可以有多个Container
3.1.1 Resource Manager(RM)

管理整个集群的内存和Cpu

3.1.2 Node Manager(NM)

管理单节点的内存和Cpu

3.1.3 ApplicationMaster(AM)

单个任务运行的老大

3.1.4 Container

相当一台独立的服务器,里面封装了运行所需要的资源

4. MapReduce

4.1 架构

4.1.1 Map
4.1.2 Reduce
相关推荐
段一凡-华北理工大学18 小时前
工业领域的Hadoop架构学习~系列文章04:YARN资源调度架构
人工智能·hadoop·学习·架构·系统架构·高炉炼铁·高炉炼铁智能化
卷毛迷你猪18 小时前
快速实验篇(A2-2)数据清洗规则修正与多语言实现验证
hadoop·分布式
段一凡-华北理工大学19 小时前
工业领域的Hadoop架构学习~系列文章05:Kafka消息队列 - 工业数据流传输
人工智能·hadoop·学习·架构·kafka·工业智能体·高炉炼铁智能化
兔子宇航员03012 天前
HIVE SQL 中 NULL 值在 JOIN 和 GROUP BY 中的致命陷阱与解决方案
hive·hadoop·sql
段一凡-华北理工大学2 天前
工业领域的Hadoop架构学习~系列文章02:HDFS架构深度剖析
大数据·人工智能·hadoop·学习·架构·高炉炼铁
段一凡-华北理工大学2 天前
工业领域的Hadoop架构学习~系列文章03:MapReduce编程模型深度解读
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉智能化
小欣加油3 天前
Hadoop开发环境搭建
大数据·数据库·hadoop
段一凡-华北理工大学3 天前
工业领域的Hadoop架构学习~系列文章01:Hadoop与工业4.0深度融合
大数据·hadoop·学习·架构·知识图谱·高炉炼铁·工业智能体
小欣加油4 天前
Hive综合应用案例——用户学历查询
数据仓库·hive·hadoop
至此流年莫相忘4 天前
CentOS 部署 Hadoop 环境指导文档
linux·hadoop·centos