Hadoop入门之Hadoop的组成

朱一头zcy2024-03-19 7:10

目录

Hadoop1.x和2.x的区别
Hadoop组成
- HDFS
- YARN
- MapReduce
[为什么说MR适合离线 Spark适合实时](#为什么说MR适合离线 Spark适合实时)

Hadoop1.x和2.x的区别

高内聚低耦合

Hadoop组成

HDFS

HDFS-负责海量数据的存储:

NameNode（nn）:管理真实数据的元数据的（hdfs集群中的老大）
DataNode（dn）:主要负责对真实数据块存储（hdfs集群中的小弟）
SecondaryNameNode（2nn）：主要为NameNode进行一些数据备份一般恢复数据的时候才会用到它它也不能保证完全数据恢复

简单来说假如需要存储500PB的数据到HDFS上

首先会把各个文件数据切割成数据块默认是128MB/块

nn就像目录一样记录了某个文件的信息:切成哪两个数据块;各自存在哪个dn上;对应哪个文件等等的信息

dn就是真实存储数据的地方

2nn是nn的秘书对nn目录的信息每隔一段时间就会备份一次

YARN

YARN主要负责资源调度
ResourceManager:统筹管理整个集群的资源并且负责接收处理客户端作业请求
NodeManager:负责单独每一台机器的资源管理实时保证和大哥RM通信
ApplicationMaster:针对每个请求job的抽象封装
Container:将来运行在YARN上的每一个任务都会给其分配资源 Container就是当前任务所需资源的抽象封装

没有作业的情况:

包含两种服务一个RM和多个NM

客户端提交作业的情况:
一个作业会有多个任务并行运行

数据存的时候是切块

数据算的时候(MR)是切片(逻辑上) 一部分一部分去读取某个数据每一部分作为一个计算任务

MapReduce

MapReduce:主要负责数据的计算分析 Map阶段并行处理输入数据 Reduce阶段对Map结果进行汇总
Map阶段:就是把需要计算的数据按照需求分成多个MapTask任务来执行
Reduce阶段::把Map阶段处理完的结果拷贝过来根据需求进行汇总计算

Map-分:映射

Reduce-合:规约

而且每台机器计算的时候是并行计算互不干扰

为什么说MR适合离线 Spark适合实时

MR的两个阶段会有多次数据的落盘(对磁盘的IO操作很频繁) 所以程序运行的效率较低
Spark的计算是基于内存的计算速度很快
但是Spark本质上也是借助MapReduce的思想来完成计算的

上一篇：使用 Redisson 实现分布式 CountDownLatch，如何使用RCountDownLatch实现内外网数据互通的超时控制？

下一篇：k8s client-java创建pod常见问题

热门推荐

01BongoCat - 跨平台键盘猫动画工具 02两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 03智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 04GitHub 镜像站点 05UV安装并设置国内源 06Linux下V2Ray安装配置指南 07GitLab 零基础入门指南：从安装到项目管理全流程 082025羊城杯网络安全大赛 wp 09Cursor Plan Mode：AI 终于知道先想后做了 10Spring Boot 实现微信登录，So Easy !