【Hive】海量数据存储利器之Hive库原理初探

文章目录

  • 一、背景
  • 二、数据仓库
    • [2.1 数据仓库概念](#2.1 数据仓库概念)
    • [2.2 数据仓库分层架构](#2.2 数据仓库分层架构)
      • [2.2.1 数仓分层思想和标准](#2.2.1 数仓分层思想和标准)
      • [2.2.2 阿里巴巴数仓3层架构](#2.2.2 阿里巴巴数仓3层架构)
      • [2.2.3 ETL和ELT](#2.2.3 ETL和ELT)
      • [2.2.4 为什么要分层](#2.2.4 为什么要分层)
    • [2.3 数据仓库特征](#2.3 数据仓库特征)
      • [2.3.1 面向主题性](#2.3.1 面向主题性)
      • [2.3.2 集成性](#2.3.2 集成性)
      • [2.3.3 非易失性](#2.3.3 非易失性)
      • [2.3.4 时变性](#2.3.4 时变性)
  • 三、hive库
    • [3.1 hive概述](#3.1 hive概述)
    • [3.2 hive架构](#3.2 hive架构)
      • [3.2.1 hive架构图](#3.2.1 hive架构图)
      • [3.2.2 hive组件](#3.2.2 hive组件)
    • [3.3 hive工作原理](#3.3 hive工作原理)
    • [3.5 hive数据模型](#3.5 hive数据模型)
      • [3.5.1 元数据](#3.5.1 元数据)
        • [3.5.1.1 Metadata](#3.5.1.1 Metadata)
        • [3.5.1.2 Metastore](#3.5.1.2 Metastore)
        • [3.5.1.3 元数据存储模式](#3.5.1.3 元数据存储模式)
      • [3.5.2 表数据](#3.5.2 表数据)
        • [3.5.2.1 Table表](#3.5.2.1 Table表)
          • [3.5.2.1.1 内部表](#3.5.2.1.1 内部表)
          • [3.5.2.1.2 外部表](#3.5.2.1.2 外部表)
        • [3.5.2.2 Partition分区](#3.5.2.2 Partition分区)
          • [3.5.2.2.1 静态分区](#3.5.2.2.1 静态分区)
          • [3.5.2.2.2 动态分区](#3.5.2.2.2 动态分区)
        • [3.5.2.3 Bucket 分桶](#3.5.2.3 Bucket 分桶)
          • [3.5.2.3.1 Bucket 分桶特性](#3.5.2.3.1 Bucket 分桶特性)
          • [3.5.2.3.2 Bucket 分桶好处](#3.5.2.3.2 Bucket 分桶好处)
        • [3.5.2.4 分区与分桶的区别](#3.5.2.4 分区与分桶的区别)
    • [3.6 hive数据类型](#3.6 hive数据类型)
    • [3.7 hive文件格式](#3.7 hive文件格式)
    • [3.8 hive本质](#3.8 hive本质)
    • [3.9 hive优缺点](#3.9 hive优缺点)
  • 四、hive与Hadoop的关系
  • 五、Hive是要取代Mysql吗?
  • 六、hive应用场景
  • 七、总结

一、背景

在如今大型互联网公司中,数据其实就是公司的核心。而这个数据的概念中不仅包括了实时数据的查询展示,也包括了离线数据的分析与辅助决策。比如现在的App中流行的推荐功能,其都是依靠海量的数据喂给算法模型训练,然后才能够精准的预测和推荐出用户的喜爱。而海量的数据存储是依靠的数据仓库的搭建与大数据的开发处理,在大数据开发中,Hive是非常重要的数据统计工具。Apache Hive是基于Hadoop的一个数据仓库基础设施,它可以对存储在Hadoop HDFS中的大规模数据进行数据总结、查询和分析。Hive提供了一种类SQL的查询语言------HiveQL(Hive Query Language),使得用户可以方便地对海量数据进行操作。本文将先介绍数据仓库的相关概念,然后再详细介绍Hive的定义、架构、工作原理、应用场景,旨在帮助读者全面了解和掌握Hive的基本原理。


二、数据仓库

2.1 数据仓库概念

数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。

数据仓库本身并不"生产"任何数据,其数据来源于不同外部系统;同时数据仓库自身也不需要"消费"任何的数据,其结果开放给各个外部应用使用,这也是为什么叫"仓库",而不叫"工厂"的原因。

2.2 数据仓库分层架构

2.2.1 数仓分层思想和标准

数据仓库的特点是本身不生产数据,也不最终消费数据。数据分层每个企业根据自己的业务需求可以分成不同的层次,但是最基础的分层思想,理论上数据分为三个层,操作型数据层(ODS)、数据仓库层(DW)和数据应用层(DA)。

2.2.2 阿里巴巴数仓3层架构


ODS层(Operation Data Store)

操作型数据层,也称之为源数据层、数据引入层、数据暂存层、临时缓存层。此层存放未经过处理的原始数据至数据仓库系统,结构上与源系统保持一致,是数据仓库的数据准备区。主要完成基础数据引入到数仓的职责,和数据源系统进行解耦合,同时记录基础数据的历史变化。

DW层(Data Warehouse)

数据仓库层。此层内部具体包括DIM维度表、DWD和DWS,由ODS层数据加工而成,其主要完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。

数据应用层(DA或ADS)

面向最终用户,面向业务定制提供给产品和数据分析使用的数据。包括前端报表、分析图表、KPI、仪表盘、OLAP专题、数据挖掘等分析。

2.2.3 ETL和ELT

ETL : 首先从数据源池中提取数据,这些数据源通常是事务性数据库。提取的数据保存在临时暂存数据库中,然后执行转换操作,将数据结构化并转换为适合目标数据仓库系统的形式以备分析。

ETL :数据在从源数据池中提取后立即加载到单一的集中存储库中,没有临时数据库,然后数据在数据仓库系统中进行转换,以便与商业智能工具和分析一起使用。大数据时代的数仓这个特点很明显

2.2.4 为什么要分层

分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:
清晰数据结构:

每一个数据分层都有它的作用域,在使用表的时候能更方便地定位和理解。

数据血缘追踪:

简单来说,我们最终给业务呈现的是一个能直接使用业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。

减少重复开发:

规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。

把复杂问题简单化:

将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。

屏蔽原始数据的异常:

屏蔽业务的影响,不必改一次业务就需要重新接入数据。

2.3 数据仓库特征

数据仓库是面向主题性(Subject-Oriented )、集成性(Integrated)、非易失性(Non-Volatile)和时变性(Time-Variant )数据集合,用以支持管理决策 。

2.3.1 面向主题性

数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库则是面向主题的,主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。

2.3.2 集成性

确定主题之后,就需要获取和主题相关的数据。当下企业中主题相关的数据通常会分布在多个操作型系统中,彼此分散、独立、异构。因此在数据进入数据仓库之前,必然要经过统一与综合,对数据进行抽取、清理、转换和汇总,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:

(1)要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。

(2)进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。

2.3.3 非易失性

数据仓库是分析数据的平台,而不是创造数据的平台。我们是通过数仓去分析数据中的规律,而不是去创造修改其中的规律。因此数据进入数据仓库后,它便稳定且不会改变。

操作型数据库主要服务于日常的业务操作,使得数据库需要不断地对数据实时更新,以便迅速获得当前最新数据,不至于影响正常的业务运作。在数据仓库中只要保存过去的业务数据,不需要每一笔业务都实时更新数据仓库,而是根据商业需要每隔一段时间把一批较新的数据导入数据仓库。

数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据。

数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘,一旦数据进入数据仓库以后,一般情况下被较长时间保留。数据仓库中一般有大量的查询操作,但修改和删除操作很少。

2.3.4 时变性

数据仓库包含各种粒度的历史数据,数据可能与某个特定日期、星期、月份、季度或者年份有关。虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要随着时间更新,以适应决策的需要。

数据仓库的数据随时间的变化表现在以下几个方面。

(1)数据仓库的数据时限一般要远远长于操作型数据的数据时限。

(2)操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。

(3)数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。


三、hive库

3.1 hive概述

Apache Hive是由 Facebook 开源用于解决海量结构化日志的数据统计工具,其是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。

Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。而HQL其实就是Hive缩写为H,Query缩写为Q,Language缩写为L。

3.2 hive架构

3.2.1 hive架构图

3.2.2 hive组件

用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行;Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。
元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
Driver驱动程序,包括语法解析器、计划编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有执行引擎调用执行。
执行引擎:Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎。
启动命令

bash 复制代码
hive --service metastore
hive --service hiveserver2
//杀掉端口占用了10000的yunDetectService服务,占用端口

3.3 hive工作原理

由于Hive是一个数据仓库工具,没有数据存储功能,它的数据是从HDFS来获得的,但是它又不能直接从HDFS进行数据访问,它是通过MapReduce来实现的,本质上也就是将HQL语句转换为MapReduce的任务,然后来进行数据访问。

将HQL语句转换为MapReduce任务进行运行的流程如下:

在搭建Hive数据仓库时,将相关语句常用的指令操作,比如SELECT、FROM、WHERE以及函数用MapReduce写成模板,并且将这些所有的MapReduce的模板封装到Hive中。这是我们在搭建Hive数据仓库的时候就形成的。那我们所要做的,如果我们是开发,根据业务需求编写相应的SQL语句,它会自动地到Hive封装的这些MapReduce中去匹配。匹配完之后就运行MapReduce程序,生成相应的分析结果,然后反馈给我们。

简单来说Hive就是一个查询引擎,当Hive接受到一条SQL语句会执行如下操作:

1.词法分析和语法分析。使用antlr将SQL语句解析成抽象语法树。

2.语义分析。从MetaStore中获取元数据信息,解释SQL语句中的表名、列名、数据类型。

3.逻辑计划生成。生成逻辑计划得到算子树。

4.逻辑计划优化。对算子树进行优化。

5.物理计划生成。将逻辑计划生成出的MapReduce任务组成的DAG的物理计划。

6.物理计划执行。将DAG发送到Hadoop集群进行执行。

7.返回查询结果。

3.5 hive数据模型

数据模型:用来描述数据、组织数据和对数据进行操作,是对现实世界数据特征的描述。Hive的数据模型类似于RDBMS库表结构,此外还有自己特有模型。Hive数据在种类上可区分为元数据表数据二种,表数据我们都知道是表中的数据,而元数据是用来存储表的名字、列、表分区以及属性。

3.5.1 元数据

元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

3.5.1.1 Metadata

元数据(Metadata),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据包括表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等。

3.5.1.2 Metastore

Metastore即元数据服务。Metastore服务的作用是管理metadata元数据,对外暴露服务地址,让各种客户端通过连接metastore服务,由metastore再去连接MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和密码,只需要连接metastore 服务即可。某种程度上也保证了hive元数据的安全。

3.5.1.3 元数据存储模式

内嵌模式: 这种模式连接到一个本地内嵌的数据库Derby,通常用于单元测试。内嵌的Derby数据库每次只能访问一个数据文件,这意味着它不支持多会话连接。这种配置适用于轻量级的测试场景,其中每个测试可以在相对独立的数据库环境中运行,确保测试之间的隔离性和可重复性。

多用户模式: 这种模式本质上将Hive默认的元数据存储介质从内置的Derby数据库切换至MySQL数据库。通过这种配置,不论以何种方式或在何处启动Hive,只要连接到同一台Hive服务,所有节点都能访问一致的元数据信息,实现元数据的共享。

远程服务器模式: 在远程模式下,MetaStore服务在其自己的独立JVM上运行,而不是在HiveServer的JVM中。其他进程若要与MetaStore服务器通信,则可以使用Thrift协议连接至MetaStore服务进行元数据库访问。在生产环境中,强烈建议配置Hive MetaStore为远程模式。在这种配置下,其他依赖于Hive的软件能够通过MetaStore访问Hive。由于这种模式下还可以完全屏蔽数据库层,因此带来更好的可管理性和安全性。

3.5.2 表数据

Hive中的数据可以在粒度级别上分为三类:Table 表、Partition分区、Bucket 分桶。

3.5.2.1 Table表

Table表:表是由存储的数据以及描述表的一些元数据组成。hive表分四种:内部表(MANGED_TABLE)、外部表(EXTERNAL_TABLE)、索引表(INDEX_TABLE)、视图表(VIRTUAL_VIEW)

3.5.2.1.1 内部表

Hive的数据都是存储在HDFS上的,存储路径为:${hive.metastore.warehouse.dir}/databasename.db/tablename,默认有一个根目录,在hive-site.xml中,由参数hive.metastore.warehouse.dir指定,其默认值为/user/hive/warehouse。

sql 复制代码
# 例如:
CREATE TABLE managed_table (dummy STRING);
LOAD DATA INPATH '/user/tom/data.txt' INTO table managed_table;

# 描述:根据上面的代码,hive 会把文件 data.txt 文件存储在 warehouse 目录下的managed_table 表 ,即 hdfs://user/hive/warehouse/databasename.db/managed_table 。
3.5.2.1.2 外部表

外部表与内部表的行为上有些差别。我们能够控制数据的创建和删除。删除外部表的时候,hive只会删除表的元数据,不会删除表数据(数据路径是在创建表的时候指定的):

sql 复制代码
# 例如:
CREATE EXTERNAL TABLE external_table (dummy STRING)
LOCATION '/user/tom/external_table';
LOAD DATA INPATH '/user/tom/data.txt' INTO TABLE external_table;

# 描述:利用EXTERNAL关键字创建外部表,Hive不会去管理表数据,所以它不会把数据移到/user/hive/warehouse目录下。
3.5.2.2 Partition分区

Partition分区是hive的一种优化手段表。Partition分区:hive的分区是根据某列的值(例如"日期day")进行粗略的划分,每个分区对应HDFS上的一个目录。分区在存储层面上的表现是:table表目录下以子文件夹形式存在,一个文件夹表示一个分区,子文件命名标准:分区列=分区值。分区表基于分区键把具有相同分区键的数据存储在一个目录下,在查询某一个分区的数据的时候,只需要查询相对应目录下的数据,而不会执行全表扫描,提高查询数据的效率。也就是说,hive 在查询的时候会进行分区剪裁 ,每个表可以有一个或多个分区键。

3.5.2.2.1 静态分区
  • 把输入数据文件单独插入分区表的叫静态分区;
  • 通常在加载文件(大文件)到 Hive 表的时候,首先选择静态分区;
  • 在加载数据时,静态分区比动态分区更节省时间;
  • 可以通过 alter table add partition 语句在表中添加一个分区,并将文件移动到表的分区中;
  • 静态分区中的分区可以修改;
  • 可以从文件名、日期等获取分区列值,而无需读取整个大文件;
  • 如果要在 Hive 使用静态分区,需要把 hive.mapred.mode 设置为strictset hive.mapred.mode=strict
  • 可以在 Hive的内部表和外部表使用静态分区。
3.5.2.2.2 动态分区
  • 对分区表的一次性插入称为动态分区;
  • 通常动态分区表从非分区表加载数据;
  • 在加载数据的时候,动态分区比静态分区会消耗更多时间;
  • 如果需要存储到表的数据量比较大,那么适合用动态分区;
  • 假如要对多个列做分区,但又不知道有多少个列,那么适合使用动态分区;
  • 动态分区不需要 where子句使用limit
  • 不能对动态分区执行修改;
  • 可以对内部表和外部表使用动态分区;
  • 使用动态分区之前,需要把模式修改为非严格模式。set hive.mapred.mode=nostrict
3.5.2.3 Bucket 分桶

Bucket分桶表是hive的一种优化手段表。hive 是针对表的某一列进行分桶,采用对表的列值进行哈希计算,然后除以桶的个数求余的方式决定该条记录存放在哪个桶中(分桶的好处是可以获得更高的查询处理效率,使取样更高效)。

要使用hive的分桶功能,首先需要打开hive对桶的控制:

sql 复制代码
set hive.enforce.bucketing=true;

分桶表创建命令:

sql 复制代码
CREATE TABLE table_name

PARTITIONED BY (partition1 data_type, partition2 data_type,....) 

CLUSTERED BY (column_name1, column_name2, ...) 

SORTED BY (column_name [ASC|DESC], ...)] 

INTO num_buckets BUCKETS;

每个桶只是表目录或者分区目录下的一个文件,如果表不是分区表,那么桶文件会存储在表目录下,如果表是分区表,那么桶文件会存储在分区目录下。所以你可以选择把分区分成 n 个桶,那么每个分区目录下就会有 n 个文件。

3.5.2.3.1 Bucket 分桶特性

数据分桶原理是基于对分桶列做哈希计算,然后对哈希的结果和分桶数取模。分桶特性如下:

  • 哈希函数取决于分桶列的类型;
  • 具有相同分桶列的记录将始终存储在同一个桶中;
  • 使用 clustered by 将表分成桶;
  • 通常,在表目录中,每个桶只是一个文件,并且桶的编号是从 1 开始的;
  • 分桶表创建的数据文件大小几乎是一样的。
3.5.2.3.2 Bucket 分桶好处
  • 与非分桶表相比,分桶表提供了高效采样。通过采样,我们可以尝试对一小部分数据进行查询,以便在原始数据集非常庞大时进行测试和调试;
  • 由于数据文件的大小是几乎一样的,map 端的 join在分桶表上执行的速度会比分区表快很多。在做mapjoin 时,处理左侧表的 map知道要匹配的右表的行在相关的桶中,因此只需要检索该桶即可;
  • 分桶表查询速度快于非分桶表;
  • 分桶的还提供了灵活性,可以使每个桶中的记录按一列或多列进行排序。 这使得 map 端 join 更加高效,因为每个桶之间的 join变为更加高效的合并排序(merge-sort)。
3.5.2.4 分区与分桶的区别
  • 分区和分桶最大的区别就是分桶随机分割数据库,分区是非随机分割数据库;
  • 分区是水平划分,表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助;
  • 分桶是垂直划分,桶是通过对指定列进行哈希计算来实现的,通过哈希值将一个列名下的数据切分为一组桶,并使每个桶对应于该列名下的一个存储文件;
  • 分桶是存储在文件中,分区是存放在文件夹中,分桶要比分区查询效率高。

3.6 hive数据类型

Hive支持两种数据类型,一种原子数据类型、还有一种叫复杂数据类型。

原子数据类型

类型 描述
TINYINT 1字节有符合整数
SMALLINT 2字节有符号整数
INT 4字节有符号整数
BIGINT 8字节有符号整数
FLOAT 4字节单精度浮点数
DOUBLE 8字节双精度浮点数
BOOLEAN true/false
STRING 字符串

复杂数据类型

类型 描述
ARRAY 有序的字段,字符类型必须相同
MAP 无序的键值对,建的类型必须是原子的,值可以是任何类型
STRUCT 一组命名的字段,字段类型可以不同

Hive类型中的String数据类型类似于MySQL中的VARCHAR,该类型是一个可变的字符串。

Hive支持数据类型转换,Hive是用Java编写的,所以数据类型转换规则遵循Java :

隐式转换 --> 小转大

强制转换 --> 大传小

3.7 hive文件格式

  • TextFile
    • 这是默认的文件格式,数据不会压缩处理,磁盘开销大,数据解析开销也大
  • SequenceFile
    • 这是Hadoop API提供的一种二进制文件支持,以二进制的形式序列化到文件中
  • RCFile
    • 这种格式是行列存储结构的存储方式
  • ORC
    • Optimized Row Columnar ORC文件格式是一种Hadoop生态圈中的列式存储格式

3.8 hive本质

将HQL转换成MapReduce程序。

  • Hive处理的数据存储在HDFS上
  • Hive分析数据底层的实现是MapReduce
  • 执行程序运行在Yarn上

3.9 hive优缺点

优点:

  • 类似于SQL语句,简单学习易上手,避免了去写 MapReduce,减少开发人员的学习成本
  • 在数据存储方面,它能够存储很大的数据集(实际上它是不存储数据的,这里的"很大的数据集"实际上指的是HDFS),并且它对数据完整性和格式要求不严格(只要是结构化的就可以了)
  • Hive 的执行延迟比较高,因此 Hive 常用于数据分析,处理大数据,对于处理小数据没有优势,适用于对实时性要求不高的场合
  • Hive 支持用户自定义函数,用户可以根据自己的需求来实现自己的函数

缺点:

  • Hive 的 HQL 表达能力有限
  • Hive 的效率比较低
    • Hive本质是一个MR

四、hive与Hadoop的关系

从功能来说,数据仓库软件,至少需要具备下述两种能力:

  • 存储数据的能力
  • 分析数据的能力

Apache Hive作为一款大数据时代的数据仓库软件,当然也具备上述两种能力。只不过Hive并不是自己实现了上述两种能力,而是借助Hadoop。
Hive利用HDFS存储数据,利用MapReduce查询分析数据。

这样突然发现Hive没啥用,不过是套壳Hadoop罢了。其实不然,Hive的最大的魅力在于用户专注于编写HQL,Hive帮您转换成为MapReduce程序完成对数据的分析。


五、Hive是要取代Mysql吗?

Hive虽然具有RDBMS数据库的外表,包括数据模型、SQL语法都十分相似,但应用场景却完全不同。Hive只适合用来做海量数据的离线分析。Hive的定位是数据仓库,面向分析的OLAP系统。因此,Hive不是大型数据库,也不是要取代Mysql承担业务数据处理。更直观的对比如下表所示:

hive mysql
定位 数据仓库 数据库
使用场景 离线数据分析 业务数据事务处理
查询语言 HQL SQL
数据存储 HDFS Local FS
执行引擎 MR、Tez、Spark Excutor
执行延迟
处理数据规模
常见操作 导入数据、查询 增删查改

六、hive应用场景

数据仓库

Hive常用于数据仓库场景,帮助企业将大规模数据进行存储、管理和查询。通过Hive,企业可以构建一个统一的数据仓库,将各类数据集中存储,并利用HiveQL进行数据分析和报表生成。

数据分析

Hive在大数据分析中扮演重要角色,适用于各种数据分析任务。利用Hive,数据分析师可以通过类SQL语言对海量数据进行复杂查询和统计分析,支持业务决策。

日志处理

Hive在日志处理方面有广泛应用,许多公司利用Hive来存储和分析日志数据。通过将日志数据导入Hive表,用户可以方便地对日志进行查询和分析,获取有价值的信息。


七、总结

Hive作为一个强大的数据仓库工具,凭借其类SQL的查询语言、与Hadoop生态系统的无缝集成以及强大的扩展性,广泛应用于各种数据仓库、数据分析和日志处理场景。通过本文的介绍,相信读者已经对数仓的基本概念、Hive的定义、架构、工作原理、应用场景有了全面的了解。在实际应用中,结合具体需求合理使用Hive,将能够充分发挥其优势,解决大规模数据处理和存储的挑战。


创作不易,如果有帮助到你的话请点赞加收藏吧!我是Wasteland,下期文章再见!

相关推荐
tsyjjOvO10 小时前
SpringMVC 从入门到精通
数据仓库·hive·hadoop
Francek Chen15 小时前
【大数据存储与管理】分布式数据库HBase:05 HBase运行机制
大数据·数据库·hadoop·分布式·hdfs·hbase
zzzzzwbetter15 小时前
Hadoop完全分布式部署-Master的NameNode以及Slaver2的DataNode未启动
大数据·hadoop·分布式
weixin_4493108417 小时前
ETL转换和数据写入小满OKKICRM的技术细节
数据仓库·php·etl
IvanCodes18 小时前
Hive IDE连接及UDF实战
ide·hive·hadoop
yumgpkpm19 小时前
华为昇腾910B 开源软件GPUStack的介绍(Cloudera CDH、CDP)
人工智能·hadoop·elasticsearch·flink·kafka·企业微信·big data
lifewange2 天前
Hive数据库
数据库·hive·hadoop
五月天的尾巴3 天前
hive数据库模糊查询表名
hive·查询表名
蓝魔Y3 天前
hive—1.1、执行优化
hive
快乐非自愿3 天前
OpenClaw 生态适配:Hadoop/Hive 技能现状与企业级集成方案
大数据·hive·hadoop·分布式·openclaw