Hadoop入门学习笔记——七、Hive语法

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7

课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8

七、Hive语法
- [7.1. 数据库相关操作](#7.1. 数据库相关操作)
- - [7.1.1. 创建数据库](#7.1.1. 创建数据库)
  - [7.1.2. 选择数据库](#7.1.2. 选择数据库)
  - [7.1.3. 描述数据库详细信息](#7.1.3. 描述数据库详细信息)
  - [7.1.4. 创建数据库并指定其在HDFS系统中的存储位置](#7.1.4. 创建数据库并指定其在HDFS系统中的存储位置)
  - [7.1.5. 删除数据库](#7.1.5. 删除数据库)
  - [7.1.6. 修改数据库存储位置](#7.1.6. 修改数据库存储位置)
  - [7.1.7. 查询当前USE的数据库](#7.1.7. 查询当前USE的数据库)
- [7.2. 数据表操作](#7.2. 数据表操作)
- - [7.2.1. Hive所支持的数据类型](#7.2.1. Hive所支持的数据类型)
  - [7.2.2. 创建数据表](#7.2.2. 创建数据表)
  - - [7.2.2.1. 基础建表语句](#7.2.2.1. 基础建表语句)
    - [7.2.2.2. 基于其他表的结构建表](#7.2.2.2. 基于其他表的结构建表)
    - [7.2.2.3. 基于查询结果建表](#7.2.2.3. 基于查询结果建表)
    - [7.2.2.4. 建表时指定Hive数据分隔符](#7.2.2.4. 建表时指定Hive数据分隔符)
  - [7.2.3. 删除表](#7.2.3. 删除表)
  - [7.2.4. 数据加载和导出](#7.2.4. 数据加载和导出)
  - - [7.2.4.1. 数据加载](#7.2.4.1. 数据加载)
    - [7.2.4.2. 数据导出](#7.2.4.2. 数据导出)
  - [7.2.5. 分区表](#7.2.5. 分区表)
  - [7.2.6. 分桶表](#7.2.6. 分桶表)
  - - [7.2.6.1. 开启分桶的自动优化（自动匹配Reduce task数量和桶的数量一致）](#7.2.6.1. 开启分桶的自动优化（自动匹配Reduce task数量和桶的数量一致）)
    - [7.2.6.2. 创建分桶表](#7.2.6.2. 创建分桶表)
    - [7.2.6.3. 分桶表加载数据](#7.2.6.3. 分桶表加载数据)
  - [7.2.7. 修改表](#7.2.7. 修改表)
  - - [7.2.7.1. 表重命名](#7.2.7.1. 表重命名)
    - [7.2.7.2. 修改表的属性](#7.2.7.2. 修改表的属性)
    - [7.2.7.3. 修改表的分区](#7.2.7.3. 修改表的分区)
    - [7.2.7.4. 修改表的列](#7.2.7.4. 修改表的列)
    - [7.2.7.5. 删除表](#7.2.7.5. 删除表)
    - [7.2.7.6. 清空表的数据](#7.2.7.6. 清空表的数据)
  - [7.2.8. 复杂类型操作](#7.2.8. 复杂类型操作)
  - - [7.2.8.1. array（数组类型）](#7.2.8.1. array（数组类型）)
    - [7.2.8.2. map（Key-Value型）](#7.2.8.2. map（Key-Value型）)
    - [7.2.8.3. struct（复合类型）](#7.2.8.3. struct（复合类型）)
    - [7.2.8.4. array、map、struct总结](#7.2.8.4. array、map、struct总结)
- [7.3. 数据查询](#7.3. 数据查询)
- - [7.3.1. 基本查询](#7.3.1. 基本查询)
  - [7.3.2. RLIKE 正则匹配](#7.3.2. RLIKE 正则匹配)
  - [7.3.3. UNION联合](#7.3.3. UNION联合)
  - [7.3.4. Sampling采样](#7.3.4. Sampling采样)
  - [7.3.5. Virtual Columns虚拟列](#7.3.5. Virtual Columns虚拟列)
- [7.4. 函数](#7.4. 函数)
- - [7.4.1. 数字、集合、转换、日期函数](#7.4.1. 数字、集合、转换、日期函数)
  - [7.4.2. 条件、字符串、脱敏、其它函数](#7.4.2. 条件、字符串、脱敏、其它函数)

七、Hive语法

7.1. 数据库相关操作

7.1.1. 创建数据库

sql 复制代码

CREATE DATABASE [IF NOT EXISTS] db_name [LOCATION 'path'] [COMMENT database_comment];

IF NOT EXISTS，如存在同名数据库不执行任何操作，否则执行创建数据库操作
[LOCATION]，自定义数据库存储位置，如不填写，默认数据库在HDFS的路径为：/user/hive/warehouse
[COMMENT database_comment]，可选，数据库注释

例如：

sql 复制代码

create database if not exists myhive;

创建一个名字为myhive的数据库，如果该数据已存在，则不再执行创建动作。

7.1.2. 选择数据库

sql 复制代码

USE db_name;

选择数据库后，后续SQL操作基于当前选择的库执行
如不使用use，默认在default库执行

例如：

sql 复制代码

use myhive;

使用myhive数据库；

若想切换回使用default库

sql 复制代码

USE DEFAULT;

7.1.3. 描述数据库详细信息

sql 复制代码

desc database myhive;

可以看到数据库名称、数据库存放路径、所属用户等信息。

可以使用HDFS命令hadoop fs -ls /user/hive/warehouse查看对应的文件；

7.1.4. 创建数据库并指定其在HDFS系统中的存储位置

sql 复制代码

create database myhive2 location '/user/hive/myhive2';

此时可以再次使用desc database myhive2查看myhive2数据库的详细信息，可以看到myhive2数据库的存放路径是按照指定的位置存放的。

7.1.5. 删除数据库

sql 复制代码

DROP DATABASE [IF EXISTS] db_name [CASCADE];

[IF EXISTS]，可选，如果存在此数据库执行删除，不存在不执行任何操作
[CASCADE]，可选，级联删除，即数据库内存在表，使用CASCADE可以强制删除数据库

例如：

删除一个空的数据库（无数据、无表）

sql 复制代码

drop  database  myhive;

删除一个非空数据库（有表或有数据）/ 强制删除数据库

sql 复制代码

drop database myhive2 cascade;

7.1.6. 修改数据库存储位置

sql 复制代码

ALTER DATABASE db_name SET LOCATION hdfs_path;

不会在HDFS对数据库所在目录进行改名，只是修改location后，新创建的表在新的路径，旧的不变

7.1.7. 查询当前USE的数据库

sql 复制代码

SELECT current_database();

7.2. 数据表操作

7.2.1. Hive所支持的数据类型

分类	类型	描述	字面量示例
原始类型	BOOLEAN	true/false	TRUE
	TINYINT	1字节的有符号整数 -128~127	1Y
	SMALLINT	2个字节的有符号整数，-32768~32767	1S
	INT	4个字节的带符号整数	1
	BIGINT	8字节带符号整数	1L
	FLOAT	4字节单精度浮点数1.0
	DOUBLE	8字节双精度浮点数	1.0
	DEICIMAL	任意精度的带符号小数	1.0
	STRING	字符串，变长	"a",'b'
	VARCHAR	变长字符串	"a",'b'
	CHAR	固定长度字符串	"a",'b'
	BINARY	字节数组
	TIMESTAMP	时间戳，毫秒值精度	122327493795
	DATE	日期	'2016-03-29'
		时间频率间隔
复杂类型	ARRAY	有序的的同类型的集合	array(1,2)
	MAP	key-value,key必须为原始类型，value可以任意类型	map('a',1,'b',2)
	STRUCT	字段集合,类型可以不同	struct('1',1,1.0), named_stract('col1','1','col2',1,'clo3',1.0)
	UNION	在有限取值范围内的一个值	create_union(1,'a',63)

7.2.2. 创建数据表

7.2.2.1. 基础建表语句

sql 复制代码

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] tb_name
	(col_name col_type [COMMENT col_comment], ......)
	[COMMENT tb_comment]
	[PARTITIONED BY(col_name col_type, ......)]
	[CLUSTERED BY(col_name, col_name, ......)
	[SORTED BY(col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
	[ROW FORMAT DELIMITED FIELDS TERMINATED BY '']
	[STORED AS SEQUENCEFILE|TEXTFILE|RCFILE]
	[LOCATION 'path']

$IF NOT EXISTS\]，若tb_name不存在则创建；$
$EXTERNAL\]，创建外部表，需与下列属性搭配： * \[ROW FORMAT DELIMITED FIELDS TERMINATED BY ''\]，指定数据的分隔符； * \[LOCATION 'path'\]，表在HDFS系统中的存放路径；$
$CLUSTERED BY(col_name, col_name, ...) INTO num_buckets BUCKETS\]，基于列分桶，col_name为表中已有的列，num_buckets为分桶个数；$
$LOCATION 'path'\]，存储位置；$
内部表（CREATE TABLE table_name ...）

未被external关键字修饰的即是内部表，即普通表。内部表又称管理表,内部表数据存储的位置由hive.metastore.warehouse.dir参数决定（默认：/user/hive/warehouse），删除内部表会直接删除元数据（metadata）及存储数据，即在MySQL的Hive数据库的TBLS表中的数据和在HDFS系统中的文件都会被删除，因此内部表不适合和其他工具共享数据。
外部表（CREATE EXTERNAL TABLE table_name ...LOCATION...）

被external关键字修饰的即是外部表，即关联表。外部表的数据可以放在任何位置，通过LOCATION关键字指定。数据存储的不同也代表了这个表在理念是并不是Hive内部管理的，而是可以随意临时链接到外部数据上的。在删除外部表的时候，仅删除元数据（表的信息），不会删除数据本身，即仅删除MySQL的Hive数据库的TBLS表中的数据，但HDFS系统中的文件不会被删除。

表类型	创建	存储位置	删除数据	理念
内部表	CREATE TABLE ...	Hive管理，默认/user/hive/warehouse	- 删除元数据（表信息） - 删除数据	Hiv管理表持久使用
外部表	CREATE EXTERNAL TABLE ... LOCATION ...	随意，LOCATION关键字指定	- 进删除元数据（表信息） - 保留数据	临时链接外部数据用

2、使用内部表

使用以下语句建库、建表、插入数据

sql 复制代码

CREATE database myhive;
use myhive;
CREATE table stu(id int, name string);
INSERT INTO stu values(1, '周杰轮'), (2, '林君姐');

插入之后，由于是内部表，可以在HDFS系统中的/user/hive/warehouse/myhive.db/stu文件下看到对应的数据表存储文件

此时，使用hadoop fs -cat命令打开这个文件，查看其里面的内容，即是刚才插入的数据

其他一些创建内部表的方式：

sql 复制代码

-- 基于其它表的结构建表
CREATE TABLE tbl_name LIKE other_tbl;
-- 基于查询结果建表
CREATE TABLE tbl_name AS SELECT ...;

3、使用外部表，关联已有数据
3.1、第一种情况：先有表，后有数据

先在Linux系统中创建一个test_external.txt文件，内容如下（使用\t做为分隔符）：

1 itheima

2 itcast

3 hadoop

在创建外部表之前，需要确保外部表所指定的存储位置的目录不存在，在本例中，需要确保HDFS系统中/tmp/test_ext1目录不存在；

然后创建外部表：

sql 复制代码

CREATE external table test_ext1(id int, name string) row format delimited fields terminated by '\t' LOCATION '/tmp/test_ext1';

创建一个外部表，表名为test_ext1，由2个字段id和name构成，该表的数据分隔符为\t，在HDFS系统中的存储位置为/tmp/test_ext1文件夹；

当前因为没有任何数据，所以该文件夹里面没有任何内容，这时，我们通过hadoop fs -put或hdfs dfs -put命令将前面在Linux中创建的test_external.txt文件上传到/tmp/test_ext1目录下；

bash 复制代码

hdfs dfs -put test_external.txt /tmp/test_ext1/

上传完成后，在Hive中执行SELECT * FROM test_ext1;语句，便可以看到刚才上传的文件中的数据了；

3.2、第二种情况：先有数据，后有表

先在HDFS中创建一个test_ext2目录

bash 复制代码

hadoop fs -mkdir /tmp/test_ext2

将数据文件上传到test_ext2目录下

bash 复制代码

hadoop fs -put test_external.txt /tmp/test_ext2

然后创建同名（test_ext2）的外部表，并将其存储位置设置为/tmp/test_ext2

sql 复制代码

CREATE external table test_ext2(id int, name string) row format delimited fields terminated by '\t' LOCATION '/tmp/test_ext2';

然后使用SELECT * FROM test_ext2;语句查询数据，发现数据可以被Hive读取到。

3.3、删除外部表

在删除表之前，查看元数据库（MySQL的Hive库）中的TBLS表的数据和HDFS文件系统对应位置的文件夹；

然后执行删表语句drop table test_ext1;，执行成功后，再次查看元数据库（MySQL的Hive库）中的TBLS表的数据和HDFS文件系统对应位置的文件夹；

发现，元数据库中的表信息已被删除，但是HDFS系统中的数据文件仍然存在，未受影响。所以，删除外部表，完全不影响数据本身。

4、内外部表转换

创建一个内部表，创建一个外部表

sql 复制代码

-- 创建内部表t1
CREATE table t1(id int);
-- 创建外部表t2
CREATE external table t2(id int) row format delimited fields terminated by '\t' LOCATION '/tmp/t2';

使用desc formatted t1;语句查看t1表信息，可以看到，该表存储的位置在/user/hive/warehouse文件夹下，且其表类型为MANAGED_TABLE（即管理表，内部表）;

使用desc formatted t2;语句查看t2表信息，可以看到，该表存储的位置在/tmp/t2文件夹下，且其表类型为EXTERNAL_TABLE（即外部表）;

4.1、内部表转换成外部表

sql 复制代码

ALTER table t1 set TBLPROPERTIES ('EXTERNAL'='TRUE');

将t1表从内部表转换成外部表。

4.2、外部表转换成内部表

sql 复制代码

ALTER table t2 set TBLPROPERTIES ('EXTERNAL'='FALSE');

将t2表从外部表转换成内部表，注意括号里的EXTERNAL和TRUE、FALSE必须大写。

7.2.2.2. 基于其他表的结构建表

sql 复制代码

CREATE TABLE tbl_name LIKE other_tbl;

7.2.2.3. 基于查询结果建表

sql 复制代码

CREATE TABLE tbl_name AS SELECT ...;

7.2.2.4. 建表时指定Hive数据分隔符

在HDFS系统中，通过hadoop fs -cat或hdfs dfs -cat命令查看Hive数据文件的内容时，在命令行里是看不到数据列的分隔符，这是因为，默认的分隔符是"\001"，是一个不可见的ASCII码，键盘打不出来，在有些文本编辑器中，其会显示为SOH，如下所示：

如果我们将Hive数据表文件下载到Linux服务器，然后使用vim工具打开查看，其会显示为^A，如下图所示：

当然，数据分隔符也是可以指定的，在创建表的时候，通过row format delimited fields terminated by可以指定，如将分隔符设置为一个制表符，则建表时可以如下写：

sql 复制代码

create table if not exists stu2(id int ,name string) row format delimited fields terminated by '\t';

7.2.3. 删除表

sql 复制代码

DROP TABLE tbl;

例如：

sql 复制代码

DROP table test;
DROP table myhive.test;

删除test表。

7.2.4. 数据加载和导出

7.2.4.1. 数据加载

1、LOAD语法（从文件向表导入数据）

在Hive客户端中执行以下语句：

sql 复制代码

LOAD DATA [LOCAL] INPATH 'path' [OVERWRITE] INTO TABLE tb_name [PARTITION(partition_key='partition_value')];