什么是Apache Hive
sql
Apache Hive 是一个分布式、容错的数据仓库系统,
可实现大规模分析和 有助于使用 SQL 读取、写入和管理驻留
在分布式存储中的 PB 级数据。
什么是蜂巢
sql
Apache Hive 是一个分布式容错数据仓库系统,可实现大规模分析。
Hive Metastore(HMS)提供了一个中央元数据存储库,可以很容
易地进行分析,以提供明智的信息。 数据驱动的决策,因此它是
许多数据湖架构的关键组成部分。 Hive 建立在 Apache Hadoop
之上,支持通过 hdfs 在 S3、adls、gs 等上存储。 Hive 允许
用户使用 SQL 读取、写入和管理 PB 级数据。
hiveserver2
sql
HS2 支持多客户端并发和身份验证。 它旨在为 JDBC 和 ODBC 等开放
API 客户端提供更好的支持。
Hive 元存储服务器 (HMS)
sql
Hive 元存储 (HMS) 是关系数据库中 Hive 表和分区元数据的中央存储库,
并使用元存储服务 API 为客户端(包括 Hive、Impala 和 Spark)提供对
此信息的访问。 它已成为利用各种开源软件
(如 Apache Spark 和 Presto)
的数据湖的构建块。 事实上,一个完整的工具生态系统,
无论是开源的还是其他的,都是围绕 Hive Metastore 构建的,
这张图说明了其中的一些。
蜂巢酸
sql
Hive 为 ORC 表提供完整的 ACID 支持,并且仅插入支持所有其他格式。
Hive 数据压缩
sql
支持基于查询和基于 MR 的数据压缩。
sql
## 蜂巢冰山
Hive 为 Apache Iceberg Tables 提供开箱即用的支持,
Apache Iceberg Tables 是一种云原生的 高性能开放表格式,
通过 Hive StorageHandler。
Hive 复制
sql
Hive 支持用于备份和恢复的引导和增量复制