【大数据技术基础】课程第8章数据仓库Hive的安装和使用大数据基础编程、实验和案例教程（第2版）

第8章数据仓库Hive的安装和使用

8.1 Hive的安装

8.1.1 下载安装文件

访问Hive官网（http://www.apache.org/dyn/closer.cgi/hive/）下载安装文件apache-hive-3.1.2-bin.tar.gz

下载完安装文件以后，需要对文件进行解压。按照Linux系统使用的默认规范，用户安装的软件一般都是存放在"/usr/local/"目录下。请在Linux系统中打开一个终端，执行如下命令：

bash 复制代码

sudo tar -zxvf ./apache-hive-3.1.2-bin.tar.gz -C /usr/local   # 解压到/usr/local中
cd /usr/local/
sudo mv apache-hive-3.1.2-bin hive       # 将文件夹名改为hive
sudo chown -R hadoop:hadoop hive          # 修改文件权限

8.1.2 配置环境变量

为了方便使用，可以把hive命令加入到环境变量PATH中，从而可以在任意目录下直接使用hive命令启动，请使用vim编辑器打开"~/.bashrc"文件进行编辑，命令如下：

bash 复制代码

vim ~/.bashrc

在该文件的最前面一行添加如下内容：

bash 复制代码

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin

保存该文件并退出vim编辑器，然后，运行如下命令使得配置立即生效：

bash 复制代码

source ~/.bashrc

8.1.3 修改配置文件

将"/usr/local/hive/conf"目录下的hive-default.xml.template文件重命名为hive-default.xml，命令如下：

bash 复制代码

cd /usr/local/hive/conf
sudo mv hive-default.xml.template hive-default.xml

同时，使用vim编辑器新建一个文件hive-site.xml，命令如下：

bash 复制代码

cd /usr/local/hive/conf
vim hive-site.xml

在hive-site.xml中输入如下配置信息：

XML 复制代码

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
    <description>JDBC connect string for a JDBC metastore</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>hive</value>
    <description>username to use against metastore database</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>hive</value>
    <description>password to use against metastore database</description>
  </property>
</configuration>

8.1.4 安装并配置MySQL

1. 安装MySQL

这里采用MySQL数据库保存Hive的元数据，而不是采用Hive自带的derby来存储元数据，因此，需要安装MySQL数据库。可以参照"附录B：Linux系统中的MySQL安装及常用操作"，完成MySQL数据库的安装，这里不再赘述。

2. 下载MySQL JDBC驱动程序

为了让Hive能够连接到MySQL数据库，需要下载MySQL JDBC驱动程序。可以到MySQL官网（http://www.mysql.com/downloads/connector/j/）下载mysql-connector-java-5.1.40.tar.gz。

在Linux系统中打开一个终端，在终端中执行如下命令解压缩文件：

bash 复制代码

cd ~
tar -zxvf mysql-connector-java-5.1.40.tar.gz   #解压

下面将mysql-connector-java-5.1.40-bin.jar拷贝到/usr/local/hive/lib目录下

bash 复制代码

cp mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar  /usr/local/hive/lib

3. 启动MySQL

执行如下命令启动MySQL，并进入"mysql>"命令提示符状态：

bash 复制代码

service mysql start  #启动MySQL服务
mysql -u root -p   #登录MySQL数据库

4. 在MySQL中为Hive新建数据库

现在，需要在MySQL数据库中新建一个名称为hive的数据库，用来保存Hive的元数据。MySQL中的这个hive数据库，是与Hive的配置文件hive-site.xml中的"mysql://localhost:3306/hive"对应起来的，用来保存Hive元数据。在MySQL数据库中新建hive数据库的命令，需要在"mysql>"命令提示符下执行，具体如下：

sql 复制代码

create database hive;

5. 配置MySQL允许Hive接入

需要对MySQL进行权限配置，允许Hive连接到MySQL。

sql 复制代码

grant all on *.* to hive@localhost identified by 'hive'; 
flush privileges;

6. 启动Hive

Hive是基于Hadoop的数据仓库，会把用户输入的查询语句自动转换成为MapReduce任务来执行，并把结果返回给用户。因此，启动Hive之前，需要先启动Hadoop集群，命令如下：

bash 复制代码

cd /usr/local/hadoop
./sbin/start-dfs.sh

然后，再执行如下命令启动Hive：

bash 复制代码

cd /usr/local/hive
./bin/hive

8.2 Hive的数据类型

|---------------|-----------------|----------------------|
| 类型 | 描述 | 示例 |
| TINYINT | 1个字节（8位）有符号整数 | 1 |
| SMALLINT | 2个字节（16位）有符号整数 | 1 |
| INT | 4个字节（32位）有符号整数 | 1 |
| BIGINT | 8个字节（64位）有符号整数 | 1 |
| FLOAT | 4个字节（32位）单精度浮点数 | 1.0 |
| DOUBLE | 8个字节（64位）双精度浮点数 | 1.0 |
| BOOLEAN | 布尔类型，true/false | true |
| STRING | 字符串，可以指定字符集 | "xmu" |
| TIMESTAMP | 整数、浮点数或者字符串 | 1327882394（Unix新纪元秒） |
| BINARY | 字节数组 | $0,1,0,1,0,1,0,1$ |
[Hive的基本数据类型]

Hive的集合数据类型

8.3 Hive基本操作

8.3.1 创建数据库、表、视图

1. 创建数据库

创建数据库hive

hive> create database hive;

创建数据库hive，因为hive已经存在，所以会抛出异常，加上if not exists关键字，则不会抛出异常

hive> create database if not exists hive;

2. 创建表

在hive数据库中，创建表usr，含三个属性id，name，age

hive> use hive;

hive>create table if not exists usr(id bigint,name string,age int);

在hive数据库中，创建表usr，含三个属性id，name，age，存储路径为"/usr/local/hive/warehouse/hive/usr"

hive>create table if not exists hive.usr(id bigint,name string,age int)

>location '/usr/local/hive/warehouse/hive/usr';

在hive数据库中，创建外部表usr，含三个属性id，name，age，可以读取路径"/usr/local/data"下以"，"分隔的数据。

hive>create external table if not exists hive.usr(id bigint,name string,age int)

>row format delimited fields terminated by ','

location '/usr/local/data';

在hive数据库中，创建分区表usr，含三个属性id，name，age，还存在分区字段sex。

hive>create table hive.usr(id bigint,name string,age int) partition by(sex boolean);

在hive数据库中，创建分区表usr1，它通过复制表usr得到。

hive> use hive;

hive>create table if not exists usr1 like usr;

3. 创建视图

创建视图little_usr，只包含usr表中id，age属性

hive>create view little_usr as select id,age from usr;

8.3.2 删除数据库、表、视图

删除数据库

删除数据库hive，如果不存在会出现警告

hive> drop database hive;

删除数据库hive，因为有if exists关键字，即使不存在也不会抛出异常

hive>drop database if not exists hive;

删除数据库hive，加上cascade关键字，可以删除当前数据库和该数据库中的表

hive> drop database if not exists hive cascade;

删除表

删除表usr，如果是内部表，元数据和实际数据都会被删除；如果是外部表，只删除元数据，不删除实际数据

hive> drop table if exists usr;

删除视图

删除视图little_usr

hive> drop view if exists little_usr;

8.3.3 修改数据库、表、视图

修改数据库

为hive数据库设置dbproperties键值对属性值来描述数据库属性信息

hive> alter database hive set dbproperties('edited-by'='lily');

修改表

重命名表usr为user

hive> alter table usr rename to user;

为表usr增加新分区

hive> alter table usr add if not exists partition(age=10);

删除表usr中分区

hive> alter table usr drop if exists partition(age=10);

把表usr中列名name修改为username，并把该列置于age列后

hive>alter table usr change name username string after age;

在对表usr分区字段之前，增加一个新列sex

hive>alter table usr add columns(sex boolean);

删除表usr中所有字段并重新指定新字段newid，newname，newage

hive>alter table usr replace columns(newid bigint,newname string,newage int);

为usr表设置tblproperties键值对属性值来描述表的属性信息

hive> alter table usr set tabproperties('notes'='the columns in usr may be null except id');

修改视图

修改little_usr视图元数据中的tblproperties属性信息

hive> alter view little_usr set tabproperties('create_at'='refer to timestamp');

8.3.4 查看数据库、表、视图

查看数据库

查看Hive中包含的所有数据库

hive> show databases;

查看Hive中以h开头的所有数据库

hive>show databases like 'h.*';

查看表和视图

查看数据库hive中所有表和视图

hive> use hive;

hive> show tables;

查看数据库hive中以u开头的所有表和视图

hive> show tables in hive like 'u.*';

8.3.5 描述数据库、表、视图

描述数据库

查看数据库hive的基本信息，包括数据库中文件位置信息等

hive> describe database hive;

查看数据库hive的详细信息，包括数据库的基本信息及属性信息等

hive>describe database extended hive;

描述表和视图

查看表usr和视图little_usr的基本信息，包括列信息等

hive> describe hive.usr/ hive.little_usr;

查看表usr和视图little_usr的详细信息，包括列信息、位置信息、属性信息等

hive> describe extended hive.usr/ hive.little_usr;

查看表usr中列id的信息

hive> describe extended hive.usr.id;

8.3.6 向表中装载数据

把目录'/usr/local/data'下的数据文件中的数据装载进usr表并覆盖原有数据

hive> load data local inpath '/usr/local/data' overwrite into table usr;

把目录'/usr/local/data'下的数据文件中的数据装载进usr表不覆盖原有数据

hive> load data local inpath '/usr/local/data' into table usr;

把分布式文件系统目录'hdfs://master_srever/usr/local/data'下的数据文件数据装载进usr表并覆盖原有数据

hive> load data inpath 'hdfs://master_srever/usr/local/data'

>overwrite into table usr;

8.3.7 查询表中数据

该命令和SQL语句完全相同这里不再赘述。

8.3.8 向表中插入数据或从表中导出数据

向表usr1中插入来自usr表的数据并覆盖原有数据

hive> insert overwrite table usr1

> select * from usr where age=10;

向表usr1中插入来自usr表的数据并追加在原有数据后

hive> insert into table usr1

> select * from usr

> where age=10;

8.4 Hive应用实例：WordCount

现在我们通过一个实例------词频统计，来深入学习一下Hive的具体使用。首先，需要创建一个需要分析的输入数据文件，然后编写HiveQL语句实现WordCount算法，在Unix下实现步骤如下：

（1）创建input目录，其中input为输入目录。命令如下：

bash 复制代码

cd /usr/local/hadoop

mkdir input

（2）在input文件夹中创建两个测试文件file1.txt和file2.txt，命令如下：

bash 复制代码

cd  /usr/local/hadoop/input

echo "hello world" > file1.txt

echo "hello hadoop" > file2.txt

（3）进入hive命令行界面，编写HiveQL语句实现WordCount算法，命令如下：

hive

hive> create table docs(line string);

hive> load data inpath 'input' overwrite into table docs;

hive>create table word_count as

select word, count(1) as count from

(select explode(split(line,' '))as word from docs) w

group by word

order by word;

执行完成后，用select语句查看运行结果如下：

8.5 Hive编程的优势

词频统计算法是最能体现MapReduce思想的算法之一，接下来，我们将比较WordCount算法在MapReduce中的编程实现和Hive中编程实现的主要不同点：

采用Hive实现WordCount算法需要编写较少的代码量

在MapReduce中，wordcount类由63行Java代码编写而成代码位置：%HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar；

而在Hive中只需要编写7行代码

在MapReduce的实现中，需要进行编译生成jar文件来执行算法，而在Hive中不需要。

HiveQL语句的最终实现需要转换为MapReduce任务来执行，这都是由Hive框架自动完成的，用户不需要了解具体实现细节。

8.6 本章小结

Hive是一个构建于Hadoop顶层的数据仓库工具，主要用于对存储在 Hadoop 文件中的数据集进行数据整理、特殊查询和分析处理。Hive在某种程度上可以看作是用户编程接口，本身不存储和处理数据，依赖HDFS存储数据，依赖MapReduce处理数据。

本章介绍了Hive的安装方法，包括下载安装文件、配置环境变量、修改配置文件、安装并配置MySQL等。Hive支持关系数据库中的大多数基本数据类型，同时Hive还支持关系数据库中不常出现的的3种集合数据类型。Hive提供了类似SQL的语句------HiveQL，可以很方便地对Hive进行操作，包括创建、修改、删除数据库、表、视图等。Hive的一大突出优点是，可以把查询语句自动转化成相应的MapReduce任务去执行得到结果，这样就可以大大节省用户的编程工作量，本章最后通过一个WordCount应用实例，充分展示了Hive的这一优点。

【大数据技术基础】 课程 第8章 数据仓库Hive的安装和使用 大数据基础编程、实验和案例教程（第2版）

第8章 数据仓库Hive的安装和使用

8.1 Hive的安装

8.1.1 下载安装文件

8.1.2 配置环境变量

8.1.3 修改配置文件

8.1.4 安装并配置MySQL

8.2 Hive的数据类型

8.3 Hive基本操作

8.3.1 创建数据库、表、视图

8.3.2 删除数据库、表、视图

8.3.3 修改数据库、表、视图

8.3.4 查看数据库、表、视图

8.3.5 描述数据库、表、视图

8.3.6 向表中装载数据

8.3.7 查询表中数据

8.3.8 向表中插入数据或从表中导出数据

8.4 Hive应用实例：WordCount

8.5 Hive编程的优势

8.6 本章小结

【大数据技术基础】课程第8章数据仓库Hive的安装和使用大数据基础编程、实验和案例教程（第2版）

第8章数据仓库Hive的安装和使用