Hadoop入门之Hadoop的组成

目录

Hadoop1.x和2.x的区别

高内聚 低耦合

Hadoop组成

HDFS

HDFS-负责海量数据的存储:

  • NameNode(nn):管理真实数据的元数据的(hdfs集群中的老大)
  • DataNode(dn):主要负责对真实数据块存储(hdfs集群中的小弟)
  • SecondaryNameNode(2nn):主要为NameNode进行一些数据备份 一般恢复数据的时候才会用到它 它也不能保证完全数据恢复

简单来说 假如需要存储500PB的数据到HDFS上

首先会把各个文件数据切割成数据块 默认是128MB/块

nn就像目录一样 记录了某个文件的信息:切成哪两个数据块;各自存在哪个dn上;对应哪个文件等等的信息

dn就是真实存储数据的地方

2nn是nn的秘书 对nn目录的信息每隔一段时间就会备份一次

YARN

  • YARN主要负责资源调度
  • ResourceManager:统筹管理整个集群的资源 并且负责接收处理客户端作业请求
  • NodeManager:负责单独每一台机器的资源管理 实时保证和大哥RM通信
  • ApplicationMaster:针对每个请求job的抽象封装
  • Container:将来运行在YARN上的每一个任务都会给其分配资源 Container就是当前任务所需资源的抽象封装

没有作业的情况:

包含两种服务 一个RM和多个NM

客户端提交作业的情况:
一个作业会有多个任务 并行运行

数据存的时候是切块

数据算的时候(MR)是切片(逻辑上) 一部分一部分去读取某个数据 每一部分作为一个计算任务

MapReduce

  • MapReduce:主要负责数据的计算分析 Map阶段并行处理输入数据 Reduce阶段对Map结果进行汇总
  • Map阶段:就是把需要计算的数据按照需求分成多个MapTask任务来执行
    Reduce阶段::把Map阶段处理完的结果拷贝过来 根据需求进行汇总计算

Map-分:映射

Reduce-合:规约

而且每台机器计算的时候 是并行计算 互不干扰

为什么说MR适合离线 Spark适合实时

  • MR的两个阶段 会有多次数据的落盘(对磁盘的IO操作很频繁) 所以程序运行的效率较低
  • Spark的计算是基于内存的 计算速度很快
  • 但是Spark本质上也是借助MapReduce的思想来完成计算的
相关推荐
还是大剑师兰特5 小时前
Hadoop面试题及详细答案 110题 (86-95)-- Hadoop生态系统工具
hadoop·大剑师·hadoop面试题
yumgpkpm5 小时前
CMP (类Cloudera) CDP7.3(400次编译)在华为鲲鹏Aarch64(ARM)信创环境中的性能测试过程及命令
大数据·hive·hadoop·python·elasticsearch·spark·cloudera
Q26433650236 小时前
大数据实战项目-基于K-Means算法与Spark的豆瓣读书数据分析与可视化系统-基于python的豆瓣读书数据分析与可视化大屏
大数据·hadoop·机器学习·数据分析·spark·毕业设计·kmeans
大数据CLUB7 小时前
基于spark的抖音短视频数据分析及可视化
大数据·hadoop·分布式·数据分析·spark
yumgpkpm7 小时前
大数据综合管理平台(CMP)(类Cloudera CDP7.3)有哪些核心功能?
hive·hadoop·elasticsearch·zookeeper·big data
板凳坐着晒太阳8 小时前
Hive 删除分区语句卡死问题
数据仓库·hive·hadoop
Q264336502320 小时前
【有源码】基于Hadoop生态的大数据共享单车数据分析与可视化平台-基于Python与大数据的共享单车多维度数据分析可视化系统
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
计算机毕业设计木哥21 小时前
计算机毕设选题推荐:基于Hadoop和Python的游戏销售大数据可视化分析系统
大数据·开发语言·hadoop·python·信息可视化·spark·课程设计
嘉禾望岗5031 天前
hive on tez运行及hive ha搭建
数据仓库·hive·hadoop
笨蛋少年派1 天前
操作Hadoop时,慎用sudo
大数据·hadoop·分布式