比较 Apache Hive 和 Spark

Hive 和 Spark 是两种非常流行且成功的用于处理大规模数据集的产品。换句话说，他们进行大数据分析。本文重点描述这两种产品的历史和各种功能。对它们的功能进行比较将说明这两种产品可以解决的各种复杂的数据处理问题。

有关该主题的更多信息：

AWS EKS/ECS 和 Fargate：了解差异

Chef 与 Puppet：方法、概念和支持

那么什么是可观察性

什么是Hive？

Hive是一个运行在 Hadoop 分布式文件系统上的开源分布式数据仓库数据库。Hive 是为查询和分析大数据而构建的。数据以表的形式存储（就像 RDBMS）。可以使用称为HiveQL的 SQL 接口执行数据操作。Hive 在 Hadoop 之上引入了 SQL 功能，使其成为水平可扩展的数据库，并且是 DWH 环境的绝佳选择。

Hive 的一点历史

Hive（后来成为 Apache）最初是由 Facebook 开发的，当时他们发现自己的数据在几天内从 GB 指数级增长到 TB 级。当时，Facebook 使用 Python 将数据加载到 RDBMS 数据库中。性能和可扩展性很快成为他们的问题，因为 RDBMS 数据库只能垂直扩展。他们需要一个可以水平扩展并处理大量数据的数据库。那时Hadoop已经很流行了；不久之后，构建在 Hadoop 之上的 Hive 出现了。Hive 类似于 RDBMS 数据库，但它不是完整的 RDBMS。

为什么是Hive？

选择Hive的核心原因是因为它是运行在Hadoop上的SQL接口。此外，它还降低了 MapReduce 框架的复杂性。Hive帮助企业在HDFS上进行大规模数据分析，使其成为一个可水平扩展的数据库。其 SQL 接口 HiveQL 使具有 RDBMS 背景的开发人员能够更轻松地构建和开发性能更快、可扩展的数据仓库类型框架。

Hive 特性和功能

Hive 具有企业级特性和功能，可以帮助组织构建高效、高端的数据仓库解决方案。

其中一些功能包括：

Hive 使用 Hadoop 作为存储引擎，并且仅运行在 HDFS 上。

它专为数据仓库操作而构建，不适合 OLTP 或 OLAP。

HiveQL 是一个 SQL 引擎，可帮助为数据仓库类型操作构建复杂的 SQL 查询。Hive 可以与其他分布式数据库（如 HBase）和 NoSQL 数据库（如 Cassandra）集成

蜂巢架构

Hive 架构非常简单。它具有Hive接口，并使用HDFS跨多个服务器存储数据以进行分布式数据处理。

Hive架构

用于数据仓库系统的 Hive

Hive 是专门为数据仓库操作构建的数据库，尤其是那些处理 TB 或 PB 数据的数据库。它是一个类似 RDBMS 的数据库，但不是 100% RDBMS。如前所述，它是一个可水平扩展并利用 Hadoop 功能的数据库，使其成为一个性能快速、大规模的数据库。它可以在数千个节点上运行，并且可以利用商用硬件。这使得 Hive 成为一种具有成本效益的产品，具有高性能和可扩展性。

Hive 集成功能

由于支持 ANSI SQL 标准，Hive 可以与HBase和Cassandra等数据库集成。这些工具对 SQL 的支持有限，可以帮助应用程序对更大的数据集执行分析和报告。Hive还可以与Spark、Kafka、Flume等数据流工具集成。

Hive 的局限性

Hive是一个纯粹的数据仓库数据库，以表的形式存储数据。因此，它只能处理使用 SQL 查询读写的结构化数据。Hive 不适合非结构化数据。此外，Hive 并不适合 OLTP 或 OLAP 操作。

什么是Spark？

Spark 是一个分布式大数据框架，可帮助提取和处理 RDD 格式的大量数据以进行分析。简而言之，它不是一个数据库，而是一个框架，可以使用 RDD（弹性分布式数据）方法从 Hive、Hadoop 和 HBase 等数据存储中访问外部分布式数据集。Spark 运行速度很快，因为它在内存中执行复杂的分析。

什么是 Spark 流？

Spark 流是 Spark 的扩展，可以从网络源实时传输实时数据以创建各种分析。尽管还有其他工具（例如 Kafka 和 Flume）可以执行此操作，但 Spark 成为执行真正复杂的数据分析所需的一个不错的选择。Spark有自己的SQL引擎，与Kafka和Flume集成时可以很好地工作。

Spark 的一点历史

Spark是作为MapReduce的替代品而引入的，MapReduce 是一种缓慢且资源密集型的编程模型。由于 Spark 对内存中的数据执行分析，因此它不必依赖磁盘空间或使用网络带宽。

为什么是Spark？

Spark 的核心优势在于它能够执行复杂的内存分析和流式传输高达 PB 级的数据，使其比 MapReduce 更高效、更快速。Spark 可以从 Hadoop 上运行的任何数据存储中提取数据，并在内存中并行执行复杂的分析。此功能减少了磁盘 I/O 和网络争用，使其速度提高十倍甚至一百倍。此外，Spark 中的数据分析框架可以使用 Java、Scala、Python、R 甚至 SQL 构建。

Spark架构

Spark 架构可能会根据要求而有所不同。通常，Spark 架构包括 Spark Streaming、Spark SQL、机器学习库、图形处理、Spark 核心引擎以及 HDFS、MongoDB 和 Cassandra 等数据存储。

星火架构

Spark 特性和功能

快如闪电的分析

Spark 从 Hadoop 中提取数据并在内存中执行分析。数据以并行方式分块拉入内存。然后，生成的数据集被推送到目的地。数据集也可以驻留在内存中直到被消耗。

Spark Streaming

Spark Streaming 是 Spark 的扩展，可以实时传输来自频繁使用的 Web 源的大量数据。由于 Spark 能够执行高级分析，因此与 Kafka 和 Flume 等其他数据流工具相比，Spark 脱颖而出。

支持各种API

Spark 支持不同的编程语言，例如 Java、Python 和 Scala，这些语言在大数据和数据分析领域非常流行。这使得数据分析框架可以用任何这些语言编写。

海量数据处理能力

如前所述，高级数据分析通常需要在海量数据集上执行。在 Spark 出现之前，这些分析是使用 MapReduce 方法执行的。Spark不仅支持MapReduce，还支持基于SQL的数据提取。需要对海量数据集执行数据提取的应用程序可以使用 Spark 来实现更快的分析。

与数据存储和工具集成

Spark 可以与运行在 Hadoop 上的 Hive 和 HBase 等各种数据存储集成。它还可以从 MongoDB 等 NoSQL 数据库中提取数据。Spark 从数据存储中提取数据一次，然后对内存中提取的数据集执行分析，这与在数据库中执行分析的其他应用程序不同。

Spark的扩展Spark Streaming可以与Kafka、Flume平滑集成，构建高效、高性能的数据管道。

Hive 和 Spark 之间的区别

Hive 和 Spark 是在大数据领域为不同目的而构建的不同产品。Hive 是一个分布式数据库，Spark 是一个数据分析框架。