hive 数据简介 - 技术栈

Hive介绍

1）Hive简介

Hive是基于Hadoop的一个数据仓库工具，用于结构化数据的查询、分析和汇总。Hive提供类SQL查询功能，它将SQL转换为MapReduce程序。

Hive不支持OLTP，Hive无法提供实时查询。

2）Hive在大数据生态环境中的位置

使用Hive与HBase进行海量数据库与查询; Hive介绍; Hive在大数据生态环境中的位置;

3）Hive特点

Hive的优点

复制代码

简单容易上手：提供了类SQL查询语言HQL。
可扩展：一般情况下不需要重启服务Hive可以自由的扩展集群的规模。
提供统一的元数据管理。
延展性：Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
容错：良好的容错性，节点出现问题SQL仍可完成执行。

使用Hive与HBase进行海量数据库与查询; Hive介绍; Hive特点;

Hive的缺点(局限性)

复制代码

Hive的HQL表达能力有限：迭代式算法无法表达，比如pagerank；数据挖掘方面，比如kmeans。
Hive的效率比较低：Hive自动生成的MapReduce作业，不够智能化；Hive调优比较困难，粒度较粗；Hive可控性差。

4）Hive与传统数据库对比

使用Hive与HBase进行海量数据库与查询; Hive介绍; Hive VS 传统数据库;

5）Hive的体系架构

使用Hive与HBase进行海量数据库与查询; Hive介绍; Hive的体系架构;

复制代码

client 三种访问方式：CLI、JDBC/ODBC、WEBUI。
Meta store 元数据：表名、表所属数据库、表拥有者、列、分区字段、表类型、表数据所在的目录等，默认存储在自带的derby数据库中。
Driver：解析器、编译器、优化器、执行器。

6）Hive中的数据模型

使用Hive与HBase进行海量数据库与查询; Hive介绍; Hive中的数据模型;

Hive 中所有的数据都存储在 HDFS 中Hive 中包含以下数据模型：

复制代码

表(Table)
外部表(External Table)
分区(Partition)
桶(Bucket)

6.SQL介绍与Hive应用场景

1）数据库操作和表操作

作用 HiveQL

2）查询语句

3）Hive的应用场景

Hive并不适合需要低延迟的应用，适合于大数据集的批处理作业：

复制代码

日志分析：大部分互联网公司使用hive进行日志分析，包括百度、淘宝等。例如，统计网站一个时间段内的pv、uv，多维度数据分析等。
海量结构化数据离线分析。

4）Hive和HBase的区别与联系

使用Hive与HBase进行海量数据库与查询; SQL介绍 & Hive应用; Hive VS HBase;