【Hadoop】建立圈内组件的宏观认识（大纲版）

Hadoop生态圈解析：各组件的主要功能及作用详解

Hadoop生态圈是由一系列开源组件组成的，这些组件共同构建了一个大规模分布式计算和存储平台。

01存储类型组件

HDFS

Hadoop体系的核心组件之一，它是一个分布式文件系统，被设计用于存储大规模数据集，并在Hadoop集群中进行高可靠性的数据存储。
HBase

HBase是一种分布式、可扩展的面向列的NoSQL数据库，它基于Hadoop的HDFS和ZooKeeper来提供可靠的、高性能的数据存储和实时读写访问。

02计算分析引擎组件

MapReduce

MapReduce 是 Hadoop 生态圈中的一个重要组件，主要用于实现分布式计算,将大规模数据集划分为较小的数据块，并在集群中的多台计算机上进行并行处理，单独使用的场景较少，通常与其他组件相结合以实现更强大的数据处理能力。
Hive

Hive提供了一个类似于 SQL 的查询语言（一套方便的数据查询和处理工具），用于在 Hadoop 分布式环境中进行数据提取、转换和加载（ETL）操作。
Spark

Spark是一个快速、通用的大数据处理引擎，具备内存计算和分布式计算的能力。
Kylin

Kylin在Hadoop体系下的主要功能是提供快速的多维数据分析查询和管理数据立方体的能力，帮助用户更高效地进行数据分析和决策支持。
Impala

Impala是一个高性能、低延迟的分布式SQL查询引擎，主要用于快速查询和分析大规模数据集。
Flink

Flink提供了一个强大的分布式计算框架，适用于大规模数据处理和分析的场景，具有低延迟、高吞吐量和高可靠性的特点。

03任务调度和集群管理组件

YARN

YARN（Yet Another Resource Negotiator）是Hadoop生态圈中的一个关键组件，主要用于集群资源的管理和作业调度。
Oozie

Oozie 是一个用于协调和管理 Hadoop 作业流程的工作流调度器。它可以让用户定义和执行复杂的工作流程，以便在大数据处理过程中自动化和调度各种作业任务。
Zookeeper

Zookeeper是一个开源的分布式协调服务，主要用于分布式应用程序的协调和配置管理。
Dolphin scheduler

Dolphin Scheduler 是一个分布式的、易扩展的、高可靠的任务调度系统，主要用于解决大规模数据处理任务的调度和执行问题。

04其他

Pig

Pig是一个基于Hadoop的开源平台，用于处理大规模的数据集。它提供了一个高级脚本语言Pig Latin，使得用户可以通过编写简单的脚本来进行数据分析和数据处理操作。
Sqoop

Sqoop 是一个用于在关系型数据库和 Hadoop 环境之间进行数据传输的工具。它可以将结构化数据从关系型数据库（如MySQL、Oracle等）导入到Hadoop（如HDFS）中进行分析，也可以将数据从Hadoop导出到关系型数据库中。
Flume

Flume是Hadoop生态系统中的一个分布式、可靠的日志收集和聚合系统。它的主要功能和作用是实时地从各种数据源（如日志文件、消息队列等）收集、移动和聚合大量的数据到Hadoop或其他存储系统中。
Ambari

Ambari是一个开源的集群管理工具，用于简化和管理Hadoop集群的安装、配置和监控。它提供了一个易于使用的网页界面，方便管理员进行集群配置、启动和停止服务、监控集群状态等操作。用户可以通过Ambari快速设置和部署Hadoop集群，并对集群进行实时监控，以便及时发现和解决问题。
Tez

Tez是一个在Hadoop上构建高性能数据处理应用程序的框架。它是一个可插拔的执行引擎，通过将数据处理任务转换为有向无环图（DAG）来实现高效的批处理和交互式查询。
Altas

Atlas是Apache Hadoop生态系统中的一个项目。它是作为Hadoop的一部分而开发的，旨在为Hadoop集群中的数据资产提供元数据管理和发现服务。Atlas可以与其他Hadoop生态系统的组件（如Hive、HDFS、HBase等）集成，并能够为这些组件提供元数据管理功能。通过与Hadoop的集成，Atlas能够更好地了解和管理整个Hadoop集群中的数据资产，提供更全面的数据资产管理和查询能力。
Hue

Hue（Hadoop User Experience）是一个开源的Web界面，为Hadoop生态系统提供了用户友好的图形化界面和工具。
Range

Range用户权限是指对Hadoop集群中的数据或资源进行访问控制的功能。Hadoop通过权限控制来限制哪些用户或用户组可以执行特定的操作，以保护数据的安全性。

【Hadoop】建立圈内组件的宏观认识