Hadoop 生态和简介

什么是 Apache Hadoop

Apache Hadoop是一个开源软件框架,由当时就职于雅虎的Douglas Cutting开发,该框架使用简单的编程模型提供对大型数据集的高度可靠的分布式处理。

开源社区最初受到了Google发布的3篇论文的启发、后面社区按照论文做了java版本的开源实现才最后产生了Hadoop。具体来讲就是谷歌三驾马车GFSMapReduceBigTable分别对应的开源实现Hadoop HDFSHadoop MapReduceApache HBase

Apache Hadoop框架包括如下组件:

  • Hadoop Common:支持其他 Hadoop 模块的常用实用程序和库。也称为 Hadoop Core。
  • Hadoop HDFS:分布式文件系统,用于在商用硬件上存储应用程序数据。HDFS 旨在为Hadoop提供容错能力并提供高聚合数据带宽和高吞吐量数据访问。默认情况下,数据块在加载或写入时跨多个节点复制。复制程度可配置:默认复制为三个。HDFS 架构采用 NameNode来管理文件系统命名空间和文件访问权限,采用多个DataNode来管理数据存储。通过支持高可用性,当活动节点发生故障时,可以使用从节点。
  • Hadoop YARN:开源 Apache Hadoop YARN 是一个用于作业调度和集群资源管理的框架。YARN 代表"Yet Another Resource Negotiator"(又一个资源谈判专家)。它支持更多工作负载,例如交互式 SQL、高级建模和实时流。
  • Hadoop MapReduce:一种基于YARN的分布式计算框架,支持并行处理大量数据;MapReduce提供了多种优化技术来加快作业速度。
  • Hadoop Ozone:专为大数据应用程序设计的可扩展、冗余和分布式对象库。

Apache Hadoop生态

经过十余年的发展,Hadoop得到了显著的发展形成了一个功能完善且稳定的生态,早已经不仅仅是最初的HDFS、MapReduce、YARN三大组件了。在这个生态中目前MapReduce作为计算框架已经比较少有人使用,YARN面临着Kubernetes一定程度的竞争、HDFS依然是主流的分布式数据存储技术。在传统的Hadoop的基础上后续出现了Hive、HBase、Spark等更简单易用且功能强大的新技术,而且类似的技术依然在蓬勃的发展。

如下是不完全的Hadoop生态地图:

这些组件在整个定位上大致分为5类:

:从各个数据源那里采集一条条源数据,并往分析系统的传输通道中发送。比如移动用户的点击事件、用户的使用日志等 :接收采集过来的源数据,一般以流式传输的方式将这些源数据传入数据分析系统,典型的技术为:Kakfa、Flume、Pulsar等 :将传入的海量数据进行可靠的分布式存储,典型的技术为:HDFS、AWS S3等 :协调、调度整个分布式数据分析群,负责让集群中的机器高效的进行并行计算,典型的技术为YARN、Kubernates等 :将传入的数据流或者保存的数据进行计算分析,典型的技术为:MapReduce、Flink、Spark、Hive等 :将计算分析后的数据进行展示和输出,典型的技术为一些BI看板或者直接输出数据到数据库等

参考

相关推荐
陈燚_重生之又为程序员6 小时前
基于梧桐数据库的实时数据分析解决方案
数据库·数据挖掘·数据分析
苍老流年15 小时前
Hive中各种Join的实现
数据仓库·hive·hadoop
EDG Zmjjkk17 小时前
Hive 查询(详细实操版)
数据仓库·hive·hadoop
布说在见17 小时前
魅力标签云,奇幻词云图 —— 数据可视化新境界
信息可视化·数据挖掘·数据分析
Hsu_kk18 小时前
Hive 查询各类型专利 Top 10 申请人及对应的专利申请数
数据仓库·hive·hadoop
Tianyanxiao18 小时前
如何利用探商宝精准营销,抓住行业机遇——以AI技术与大数据推动企业信息精准筛选
大数据·人工智能·科技·数据分析·深度优先·零售
大数据编程之光18 小时前
Hive 查询各类型专利 top10 申请人及专利申请数
大数据·数据仓库·hive·hadoop
杰克逊的日记18 小时前
Hive详解
数据仓库·hive·hadoop
上辈子杀猪这辈子学IT18 小时前
【Zookeeper集群搭建】安装zookeeper、zookeeper集群配置、zookeeper启动与关闭、zookeeper的shell命令操作
linux·hadoop·zookeeper·centos·debian
FIT2CLOUD飞致云19 小时前
仪表板展示|DataEase看中国:历年双十一电商销售数据分析
数据分析·开源·数据可视化·dataease·双十一