Hadoop简介

目录

Hadoop

狭义解释

广义解释

Hadoop不同版本

1.x

2.x

3.x

Hadoop集群搭建

集群简介

集群搭建方式


Hadoop

狭义解释

Apache的一个用Java语言实现的开源软件框架,是一个存储和计算大规模数据的软件平台。

核心组件**:**

HDFS(分布式文件系统):解决海量数据存储

MapReduce(分布式运算编程框架):解决海量数据计算

YARN(作业调度和集群资源管理的框架):解决资源任务调度

广义解释

Hadoop通常是指Hadoop生态圈,由很多大数据组件构建而成。

包括:Linux、zookeeper、Hadoop、hive、hbase、redis、elk、kadka、java、scala、python、impala、kudu、spark、flink、相关工具等

Hadoop不同版本

1.x

mapreduce:数据计算;资源管理

hdfs:数据存储,自动备份

2.x

mapreduce:数据计算

yarn:资源管理,分担了压力

hdfs:数据存储

hdfs、yarn解释:

NameNode:集群中的主节点,主要用于管理集群当中的各种数据

SecondaryNameNode:主要用于Hadoop中元数据信息的辅助管理

元数据:描述数据属性的信息,用来支持(如指示存储位置、历史数据、资源查找、文件记录)等功能。

DataNode:集群中的从节点,主要用于存储集群当中的各种数据
ResourceManager:接受用户的计算请求任务,负责集群的资源分配

NodeManager:负责执行主节点分配的任务

mapreduce特点:

MapReduce是一个计算框架,map负责分布式计算,reduce负责将分布式计算的结果合并

MapReduce计算需要的数据和产生的结果需要HDFS来进行存储

MapReduce的运行需要由Yarn集群来提供资源调度

3.x

支持多个NameNode

优化了YARN时间线服务和MapReduce性能

引入纠删码技术,降低了冷数据的存储成本

Hadoop集群搭建简介

集群简介

Hadoop集群:包括HDFS集群和YARN集群,两者逻辑上分离,物理上在一起

HDFS集群:NameNode、DataNode、SecondaryNameNode

YARN集群:ResourceManager、NodeManager

集群搭建方式

单机模式(Standalone mode)

1个机器上运行HDFS的NameNode和DataNode、YARN的ResourceManger和NodeManager,主要用于学习和调试。

集群模式(Cluster mode)

主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同机器上。

相关推荐
geneculture8 小时前
融智学体系图谱(精确对应版)
大数据·人工智能·学习·融智学的重要应用·信智序位
有味道的男人8 小时前
国内电商 API 深度赋能:从选品、库存到履约,重构电商运营效率新范式
大数据·重构
程砚成8 小时前
美容行业的未来:当科技照进美与健康
大数据·人工智能
TG:@yunlaoda360 云老大8 小时前
腾讯云国际站代理商TEFP有什么优势呢?
大数据·云计算·腾讯云
LaughingZhu8 小时前
Product Hunt 每日热榜 | 2025-12-17
大数据·人工智能·经验分享·搜索引擎·产品运营
小北方城市网8 小时前
鸿蒙6.0:AI与智能体框架(HMAF),重塑操作系统未来的核心密码
大数据·网络·人工智能·microsoft·ai·智能手机
又是努力搬砖的一年9 小时前
elasticsearch修改字段类型
android·大数据·elasticsearch
六行神算API-天璇9 小时前
数字人“个性化”背后的玄机:大模型微调与RAG实战解析
大数据·人工智能
在职工程博士9 小时前
在职博士-南京邮电大学申请考核制博士招生实施细则(信息通信、信息管理工程方向)
大数据·数据库·嵌入式硬件·物联网·硬件工程·数据库开发
Deepoch9 小时前
低幻觉AI:重塑科研与教育领域的可信智能新范式
大数据·人工智能·机器学习·机器人·具身模型·deepoc·低幻觉ai