Hadoop 生态和简介

什么是 Apache Hadoop

Apache Hadoop是一个开源软件框架,由当时就职于雅虎的Douglas Cutting开发,该框架使用简单的编程模型提供对大型数据集的高度可靠的分布式处理。

开源社区最初受到了Google发布的3篇论文的启发、后面社区按照论文做了java版本的开源实现才最后产生了Hadoop。具体来讲就是谷歌三驾马车GFSMapReduceBigTable分别对应的开源实现Hadoop HDFSHadoop MapReduceApache HBase

Apache Hadoop框架包括如下组件:

  • Hadoop Common:支持其他 Hadoop 模块的常用实用程序和库。也称为 Hadoop Core。
  • Hadoop HDFS:分布式文件系统,用于在商用硬件上存储应用程序数据。HDFS 旨在为Hadoop提供容错能力并提供高聚合数据带宽和高吞吐量数据访问。默认情况下,数据块在加载或写入时跨多个节点复制。复制程度可配置:默认复制为三个。HDFS 架构采用 NameNode来管理文件系统命名空间和文件访问权限,采用多个DataNode来管理数据存储。通过支持高可用性,当活动节点发生故障时,可以使用从节点。
  • Hadoop YARN:开源 Apache Hadoop YARN 是一个用于作业调度和集群资源管理的框架。YARN 代表"Yet Another Resource Negotiator"(又一个资源谈判专家)。它支持更多工作负载,例如交互式 SQL、高级建模和实时流。
  • Hadoop MapReduce:一种基于YARN的分布式计算框架,支持并行处理大量数据;MapReduce提供了多种优化技术来加快作业速度。
  • Hadoop Ozone:专为大数据应用程序设计的可扩展、冗余和分布式对象库。

Apache Hadoop生态

经过十余年的发展,Hadoop得到了显著的发展形成了一个功能完善且稳定的生态,早已经不仅仅是最初的HDFS、MapReduce、YARN三大组件了。在这个生态中目前MapReduce作为计算框架已经比较少有人使用,YARN面临着Kubernetes一定程度的竞争、HDFS依然是主流的分布式数据存储技术。在传统的Hadoop的基础上后续出现了Hive、HBase、Spark等更简单易用且功能强大的新技术,而且类似的技术依然在蓬勃的发展。

如下是不完全的Hadoop生态地图:

这些组件在整个定位上大致分为5类:

:从各个数据源那里采集一条条源数据,并往分析系统的传输通道中发送。比如移动用户的点击事件、用户的使用日志等 :接收采集过来的源数据,一般以流式传输的方式将这些源数据传入数据分析系统,典型的技术为:Kakfa、Flume、Pulsar等 :将传入的海量数据进行可靠的分布式存储,典型的技术为:HDFS、AWS S3等 :协调、调度整个分布式数据分析群,负责让集群中的机器高效的进行并行计算,典型的技术为YARN、Kubernates等 :将传入的数据流或者保存的数据进行计算分析,典型的技术为:MapReduce、Flink、Spark、Hive等 :将计算分析后的数据进行展示和输出,典型的技术为一些BI看板或者直接输出数据到数据库等

参考

相关推荐
B站计算机毕业设计超人1 小时前
计算机毕业设计Flink+Hadoop广告推荐系统 广告预测 广告数据分析可视化 广告爬虫 大数据毕业设计 Spark Hive 深度学习 机器学
大数据·hadoop·机器学习·spark·课程设计·数据可视化·推荐算法
天才的白鸟2 小时前
hive命令和参数
数据仓库·hive·hadoop
大数据小朋友3 小时前
小时候的子弹击中了现在的我-hive进阶:案例解析(第18天)
大数据·数据仓库·hive·hadoop·分布式·sql
B站计算机毕业设计超人4 小时前
计算机毕业设计PyFlink+Spark+Hive民宿推荐系统 酒店推荐系统 民宿酒店数据分析可视化大屏 民宿爬虫 民宿大数据 知识图谱 机器学习
大数据·hive·hadoop·机器学习·数据分析·spark·推荐算法
我非夏日4 小时前
基于Hadoop平台的电信客服数据的处理与分析③项目开发:搭建基于Hadoop的全分布式集群---任务9:HBase的安装和部署
大数据·hadoop·分布式·hbase·大数据技术开发
专注VB编程开发20年6 小时前
基于C#在WPF中使用斑马打印机进行打印
hadoop·c#·wpf·斑马打印机·zpl打印机
天才的白鸟6 小时前
mapreduce实现bean的序列化与反序列化
大数据·hadoop·分布式
四季予你666 小时前
大数据期末复习——hadoop、hive等基础知识
大数据·hive·hadoop
我非夏日8 小时前
基于Hadoop平台的电信客服数据的处理与分析①项目准备阶段---项目技术预研(技术架构)
大数据·hadoop·架构·大数据项目
嗨!陌生人11 小时前
SpringSecurity中文文档(Servlet Session Management)
java·hadoop·spring boot·后端·spring cloud·servlet