【大数据技术基础 | 实验十二】Hive实验：Hive分区

文章目录

一、实验目的

掌握Hive分区的用法，加深对Hive分区概念的理解，了解Hive表在HDFS的存储目录结构。

二、实验要求

创建一个Hive分区表；根据数据年份创建year=2014和year=2015两个分区；将2015年的数据导入到year=2015的分区；在Hive界面用条件year=2015查询2015年的数据。

三、实验原理

分区(Partition)对应于数据库中的分区(Partition)列的密集索引，但是Hive中分区(Partition)的组织方式和数据库中的很不相同。在Hive中，表中的一个分区(Partition)对应于表下的一个目录，所有的分区(Partition)的数据都存储在对应的目录中。例如：pvs表中包含ds和ctry两个分区(Partition)，则对应于ds = 20090801, ctry = US的HDFS子目录为：/wh/pvs/ds=20090801/ctry=US；对应于ds = 20090801, ctry = CA的HDFS子目录为；/wh/pvs/ds=20090801/ctry=CA。

外部表(External Table)指向已经在HDFS中存在的数据，可以创建分区(Partition)。它和Table在元数据的组织上是相同的，而实际数据的存储则有较大的差异。

Table的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据的访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。

四、实验环境

云创大数据实验平台：
Java 版本：jdk1.7.0_79
Hadoop 版本：hadoop-2.7.1
Hive 版本：hive-1.2.1

五、实验步骤

这里可以点击一键搭建，部署好实验环境，具体详细步骤可参考：
【大数据技术基础 | 实验三】HDFS实验：部署HDFS，
【大数据技术基础 | 实验十】Hive实验：部署Hive。

因为Hive依赖于MapReduce，所以本实验之前先要启动Hadoop集群，然后再启动Hive进行实验，主要包括以下三个步骤。

（一）启动Hadoop集群

在主节点进入Hadoop安装目录，启动Hadoop集群。

bash 复制代码

cd /usr/cstor/hadoop/sbin
./start-all.sh

（二）用命令进入Hive客户端

进入Hive安装目录，用命令进入Hive客户端。

bash 复制代码

cd  /usr/cstor/hive
bin/hive

（三）通过HQL语句进行实验

进入客户端后，查看Hive数据库，并选择default数据库：

bash 复制代码

hive> show databases;
hive> use default;

在命令端创建Hive分区表：

bash 复制代码

hive> create table parthive (createdate string, value string) partitioned by (year string) row format delimited fields terminated by '\t';

查看新建的表：

bash 复制代码

hive> show tables;

给parthive表创建两个分区：

bash 复制代码

hive> alter table parthive add partition(year='2014');
hive> alter table parthive add partition(year='2015');

查看parthive的表结构：

bash 复制代码

hive> describe parthive;

向year=2015分区导入本地数据：

bash 复制代码

hive> load data local inpath '/root/data/12/parthive.txt' into table parthive partition(year='2015');

根据条件查询year=2015的数据：

bash 复制代码

hive> select * from parthive t where t.year='2015';

根据条件统计year=2015的数据：

bash 复制代码

hive> select count(*) from parthive where year='2015';

六、实验结果

用命令查看HDFS文件，Hive中parthive表在HDFS文件中的存储目录结构如下图所示：

bash 复制代码

cd /usr/cstor/hadoop
bin/hadoop fs -ls /user/hive/warehouse/parthive

Hive客户端查询结果如下图所示：

Hive客户端统计结果如下图所示：

七、实验心得

Hive分区的实践过程中，我深刻体会到了Hive分区在大数据处理中的核心价值和重要性。实验之初，我对Hive分区的概念仅停留在理论层面，但通过实际操作，我逐渐明白了分区是如何在Hive中运作的。Hive中的分区对应于表下的一个目录，这种存储方式不仅使得数据的管理更为有序，而且大大提高了数据查询的效率。特别是当面对海量数据时，通过分区可以迅速定位到所需数据，避免了全表扫描的庞大开销。

在实验过程中，我按照要求创建了一个Hive分区表，并成功地为该表添加了year为2014和2015的两个分区。随后，我将2015年的数据导入到year=2015的分区中，并尝试用条件查询和统计来验证分区的效果。当我在Hive客户端中输入查询语句，迅速得到结果时，我深刻感受到了Hive分区带来的查询性能提升。

此外，通过本次实验，我还对Hive与HDFS的集成有了更深入的了解。Hive表在HDFS中的存储目录结构与分区密切相关，这使得我能够更好地理解Hive数据在底层存储系统中的组织方式。

总的来说，这次Hive分区实验不仅让我掌握了Hive分区的用法，更让我对Hive在大数据处理中的强大功能有了更深刻的认识。我坚信，在未来的大数据学习和实践中，Hive分区将成为我处理和分析大数据的重要工具之一。通过这次实验，我更加坚定了自己学习大数据技术的决心和信心。

附：以上文中的数据文件及相关资源下载地址：

链接：https://pan.quark.cn/s/5645ecbb3861

提取码：kmzw