Hadoop简介

目录

Hadoop

狭义解释

广义解释

Hadoop不同版本

1.x

2.x

3.x

Hadoop集群搭建

集群简介

集群搭建方式


Hadoop

狭义解释

Apache的一个用Java语言实现的开源软件框架,是一个存储和计算大规模数据的软件平台。

核心组件**:**

HDFS(分布式文件系统):解决海量数据存储

MapReduce(分布式运算编程框架):解决海量数据计算

YARN(作业调度和集群资源管理的框架):解决资源任务调度

广义解释

Hadoop通常是指Hadoop生态圈,由很多大数据组件构建而成。

包括:Linux、zookeeper、Hadoop、hive、hbase、redis、elk、kadka、java、scala、python、impala、kudu、spark、flink、相关工具等

Hadoop不同版本

1.x

mapreduce:数据计算;资源管理

hdfs:数据存储,自动备份

2.x

mapreduce:数据计算

yarn:资源管理,分担了压力

hdfs:数据存储

hdfs、yarn解释:

NameNode:集群中的主节点,主要用于管理集群当中的各种数据

SecondaryNameNode:主要用于Hadoop中元数据信息的辅助管理

元数据:描述数据属性的信息,用来支持(如指示存储位置、历史数据、资源查找、文件记录)等功能。

DataNode:集群中的从节点,主要用于存储集群当中的各种数据
ResourceManager:接受用户的计算请求任务,负责集群的资源分配

NodeManager:负责执行主节点分配的任务

mapreduce特点:

MapReduce是一个计算框架,map负责分布式计算,reduce负责将分布式计算的结果合并

MapReduce计算需要的数据和产生的结果需要HDFS来进行存储

MapReduce的运行需要由Yarn集群来提供资源调度

3.x

支持多个NameNode

优化了YARN时间线服务和MapReduce性能

引入纠删码技术,降低了冷数据的存储成本

Hadoop集群搭建简介

集群简介

Hadoop集群:包括HDFS集群和YARN集群,两者逻辑上分离,物理上在一起

HDFS集群:NameNode、DataNode、SecondaryNameNode

YARN集群:ResourceManager、NodeManager

集群搭建方式

单机模式(Standalone mode)

1个机器上运行HDFS的NameNode和DataNode、YARN的ResourceManger和NodeManager,主要用于学习和调试。

集群模式(Cluster mode)

主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同机器上。

相关推荐
jinanwuhuaguo1 小时前
(第二十七篇)OpenClaw四月的演化风暴:OpenClaw 2026年4月全版本更新的文明级解读
大数据·人工智能·架构·kotlin·openclaw
清晨0012 小时前
工业生产实时数据获取方案-TDengine
大数据·时序数据库·tdengine
极创信息2 小时前
信创产品认证怎么做?信创产品测试认证的主要流程
java·大数据·数据库·金融·软件工程
Elastic 中国社区官方博客2 小时前
Elastic 和 Cursor 合作 加速 上下文工程 与 coding agents
大数据·人工智能·elasticsearch·搜索引擎·全文检索
lzhdim3 小时前
SQL 入门 12:SQL 视图:创建、修改与可更新视图
java·大数据·服务器·数据库·sql
科研前沿3 小时前
镜像孪生VS视频孪生核心技术产品核心优势
大数据·人工智能·算法·重构·空间计算
lizhihai_994 小时前
股市学习心得-六张分时保命图
大数据·人工智能·学习
渣渣盟4 小时前
Flink 流处理那些事儿:状态、时间与容错
大数据·flink
CS创新实验室5 小时前
CS实验室行业报告:生物医药与生物工程行业就业分析报告
大数据·人工智能·生物医药
隐于花海,等待花开7 小时前
40.RAND 函数深度解析
hive·hadoop