Apache-Hive数据库使用学习

前期准备

Hadoop-分布式部署（服务全部在线）

Mysql-node1节点部署（确认安装正常）

apache-hive -node1节点部署（需要与MySQL元数据联动存储）

参考博客：

Hadoop

Hadoop集群搭建-完全分布式_hadoop完全分布式搭建-CSDN博客

2024海南省大数据应用技术高校教师培训-Hadoop集群部署_hadoop师资培训-CSDN博客

Mysql

MySQL安装配置-5.7.25版本_mysql5.7.25-CSDN博客

Centos7-rpm包管理器方式安装MySQL 5.7.25及开启root用户远程连接-弱密码登录-CSDN博客

rpm安装MySQL包出现的文件冲突解决_rpm版本冲突-CSDN博客

Apache-Hive

大数据Hive组件安装-元数据库联动Mysql_hadoop hive 安装-CSDN博客

大数据Hive安装与配置_hadoop的hive怎么登陆-CSDN博客

其他组件

Flume安装配置-CSDN博客

Centos7安装sqoop1.4.7超详细教程-CSDN博客

ZooKeeper安装配置--集群模式-CSDN博客

一，基础操作

1，查看/创建/删除hive中的数据库

（1）查看hive中有多少个数据库

sql 复制代码

SHOW DATABASES;

（2）在hive中创建一个数据库

sql 复制代码

CREATE DATABASE IF NOT EXISTS test6;

IF NOT EXISTS 可以避免在数据库已存在时报错。

test6 是库名

查看是否创建数据库成功

sql 复制代码

SHOW DATABASES;

创建成功。

（3）删除数据库

sql 复制代码

DROP DATABASE IF EXISTS test6;

2，查看/创建/删除数据库中的表

(1)进入/使用test数据库

sql 复制代码

USE test;

(2)查看test数据库中所有的表

sql 复制代码

SHOW TABLES;

之前测试过创建表，所以OK值下面会有一个表，如果是新的数据库，是没有这个表的，只会返回OK值，如新创建一个test3数据库，进入查看：

(3)创建测试表test_table2

假设给定几个字段，要求在创建表时增加进去：

表名：test_table

字段：时间，国家，省份，性别，联网设备，是否成年
假设数据类型如下：

时间：STRING（也可以根据具体需求设置为 TIMESTAMP 类型）

国家：STRING

省份：STRING

性别：STRING

联网设备 ：INT（假设该字段记录设备数量）

是否成年 ：BOOLEAN

假设表的存储格式为 ORC，示例如下：

sql 复制代码

CREATE TABLE IF NOT EXISTS test_table2 (
    `time` STRING,
    country STRING,
    province STRING,
    gender STRING,
    devices INT,
    is_adult BOOLEAN
)
STORED AS ORC;

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','：指定以逗号作为字段分隔符。

STORED AS ORC：指定使用 ORC 格式存储数据。

如果需要其他格式或者分隔符，可以进行相应调整。

查看是否创建成功

sql 复制代码

SHOW TABLES;

(4)删除测试表test_table2

sql 复制代码

DROP TABLE IF EXISTS test_table2;

查看是否删除完成

sql 复制代码

SHOW TABLES;

完成。

3，查看/增加/删除表中字段

(1)查看表结构

sql 复制代码

DESCRIBE test_table;

可以看到表中有一个字段time_column，类型为string

查看详细结构信息

sql 复制代码

DESCRIBE FORMATTD test_table;

(2)增加表中数据

举例：

在test_table表中增加邮箱字段。

sql 复制代码

ALTER TABLE test_table ADD COLUMNS (email STRING COMMENT 'Email Address');

查看

sql 复制代码

DESCRIBE FORMATTD test_table;

增加成功。

(3)修改表中字段。

示例：

把test_table表中的email字段改为email_table2，类型string不变。

sql 复制代码

ALTER TABLE test_table CHANGE email email_table2 STRING;

(4)删除表中字段

Hive 不支持直接删除字段，可以通过以下方式实现：

创建一个新的表，不包括需要删除的字段。

将原表中的数据插入到新的表中。

删除原表，并将新表重命名为原表名。
示例：

创建新表，保留所需字段:time_column, email_table2

sql 复制代码

CREATE TABLE test3_table AS
SELECT time_column, email_table2
FROM test_table;

查看是否执行完成：

sql 复制代码

SHOW TABLES;

执行日志：

sql 复制代码

hive> CREATE TABLE test3_table AS
    > SELECT time_column, email_table2
    > FROM test_table;
2024-11-05T23:08:44,344 INFO [main] org.apache.hadoop.hive.conf.HiveConf - Using the default value passed in for log id: a0e610d6-9cab-473f-b04f-f539de818377
2024-11-05T23:08:44,344 INFO [main] org.apache.hadoop.hive.ql.session.SessionState - Updating thread name to a0e610d6-9cab-473f-b04f-f539de818377 main
2024-11-05T23:08:44,520 INFO [a0e610d6-9cab-473f-b04f-f539de818377 main] org.apache.hadoop.hive.common.FileUtils - Creating directory if it doesn't exist: hdfs://node1:8020/user/hive/warehouse/test.db/.hive-staging_hive_2024-11-05_23-08-44_402_1029558810549486972-1
Query ID = root_20241105230844_1f4afcb5-d5fb-4057-a42a-c36597c03a35
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
2024-11-05T23:08:47,405 INFO [a0e610d6-9cab-473f-b04f-f539de818377 main] org.apache.hadoop.conf.Configuration.deprecation - mapred.submit.replication is deprecated. Instead, use mapreduce.client.submit.file.replication
2024-11-05T23:09:38,078 INFO [a0e610d6-9cab-473f-b04f-f539de818377 main] org.apache.hadoop.conf.Configuration.deprecation - yarn.resourcemanager.system-metrics-publisher.enabled is deprecated. Instead, use yarn.system-metrics-publisher.enabled
2024-11-05T23:09:40,426 INFO [a0e610d6-9cab-473f-b04f-f539de818377 main] org.apache.hadoop.conf.Configuration - resource-types.xml not found
Starting Job = job_1730818870875_0001, Tracking URL = http://node1:8088/proxy/application_1730818870875_0001/
Kill Command = /export/server/hadoop-3.3.0/bin/mapred job  -kill job_1730818870875_0001
Hadoop job information for Stage-1: number of mappers: 0; number of reducers: 0
2024-11-05 23:10:24,063 Stage-1 map = 0%,  reduce = 0%
Ended Job = job_1730818870875_0001
Stage-4 is selected by condition resolver.
Stage-3 is filtered out by condition resolver.
Stage-5 is filtered out by condition resolver.
Moving data to directory hdfs://node1:8020/user/hive/warehouse/test.db/.hive-staging_hive_2024-11-05_23-08-44_402_1029558810549486972-1/-ext-10002
Moving data to directory hdfs://node1:8020/user/hive/warehouse/test.db/test3_table
MapReduce Jobs Launched: 
Stage-Stage-1:  HDFS Read: 0 HDFS Write: 0 SUCCESS
Total MapReduce CPU Time Spent: 0 msec
OK
Time taken: 109.25 seconds
2024-11-05T23:10:33,809 INFO [a0e610d6-9cab-473f-b04f-f539de818377 main] org.apache.hadoop.hive.conf.HiveConf - Using the default value passed in for log id: a0e610d6-9cab-473f-b04f-f539de818377
2024-11-05T23:10:33,809 INFO [a0e610d6-9cab-473f-b04f-f539de818377 main] org.apache.hadoop.hive.ql.session.SessionState - Resetting thread name to  main
hive>

2，删除原表

sql 复制代码

DROP TABLE test_table;

将新表test3_table重命名为原表名test5_table

sql 复制代码

ALTER TABLE test3_table RENAME TO test5_table;

增删改的注意事项

如果表中的数据量非常大，重建表的方式可能会花费较多的资源和时间。

执行删除操作前，最好备份数据，确保数据安全。

(5)查看表中字段下的数据

以随机一个数据文件做演示

列出全部字段及记录

语句会返回hyxx_table表的全部记录，包含所有字段的信息

sql 复制代码

hive> SELECT *
    > FROM hyxx_table
    > LIMIT ;

列出表中所有字段和前10条记录

以下语句会返回hyxx_table表的前10条记录，包含所有字段的信息

sql 复制代码

SELECT *
FROM hyxx_table
LIMIT 10;

列出特定字段的前10条记录

在Hive中，可以使用SELECT语句来查看特定字段的数据。假设要查看hyxx_table表中某些字段的内容，例如查看会员卡号、会员等级和注册时间，可以使用以下SQL语句：

sql 复制代码

SELECT member_card_number, member_level, registration_time
FROM hyxx_table
LIMIT 10;

二，进阶操作

1. 分区（Partition）管理

分区是Hive提高查询效率的重要机制。它将数据按指定列（如日期）划分到不同的目录中，从而加速数据查询。

创建分区表

示例：

创建一个分区表，字段为id INT，name STRING ,year INT,month INT

sql 复制代码

CREATE TABLE partitioned_table (
    id INT,
    name STRING
) PARTITIONED BY (year INT, month INT);

查看

添加分区

sql 复制代码

ALTER TABLE partitioned_table ADD PARTITION (year=2024,month=10);

查询分区

sql 复制代码

SELECT * FROM partitioned_table WHERE year = 2024 AND month = 10;

删除分区

sql 复制代码

ALTER TABLE partitioned_table DROP PARTITION (year=2024, month=10);

2. 桶（Bucketing）管理

桶将数据分散到多个文件中，以提高查询性能，尤其是当你需要按某个列进行散列分布时。桶可以配合分区使用。

创建桶表

sql 复制代码

CREATE TABLE bucketed_table (
    id INT,
    name STRING
) CLUSTERED BY (id) INTO 4 BUCKETS;

查看

查询桶表

sql 复制代码

SELECT * FROM bucketed_table;

3. 视图（View）

视图是一个虚拟的表，它并不存储数据，而是存储查询定义。通过视图，可以简化复杂查询的执行。

创建视图

sql 复制代码

CREATE VIEW view_name AS
SELECT id, name FROM partitioned_table  WHERE year = 2024;

查询视图

sql 复制代码

SELECT *FROM view_name;

查看

删除视图

sql 复制代码

DROP VIEW view_name;

4. 外部表（External Table）

外部表指的是数据存储在外部文件系统中（如HDFS、S3等），Hive不会管理数据的生命周期。它适用于数据频繁更新的场景。

创建外部表

示例，这里的外部表存储在hdfs的tmp目录下，数据接口：hdfs://node1:8020/tmp/

sql 复制代码

CREATE EXTERNAL TABLE external_table (
id INT,
name STRING
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION 'hdfs://node1:8020/tmp/';

查看外部表

sql 复制代码

SHOW TABLES;

查看表结构/细节

sql 复制代码

DESCRIBE FORMATTED external_table;

删除外部表

sql 复制代码

DROP TABLE external_table;

5. 窗口函数（Window Functions）

窗口函数允许你在查询结果的某些行之间执行计算，而无需使用GROUP BY。常见的窗口函数有ROW_NUMBER()、RANK()、LEAD()、LAG()等。

示例：使用ROW_NUMBER()对每个分组进行排序

sql 复制代码

SELECT id, name, ROW_NUMBER() OVER (PARTITION BY year ORDER BY id) AS row_num
FROM partitioned_table;

6. JOIN操作

Hive支持各种类型的JOIN操作，包括内连接（INNER JOIN）、左连接（LEFT JOIN）、右连接（RIGHT JOIN）、全连接（FULL OUTER JOIN）等。

示例：内连接（INNER JOIN）

sql 复制代码

SELECT a.id, a.name, b.department
FROM employees a
JOIN departments b
ON a.department_id = b.id;

示例：左连接（LEFT JOIN）

sql 复制代码

SELECT a.id, a.name, b.department
FROM employees a
LEFT JOIN departments b
ON a.department_id = b.id;

7. 子查询（Subqueries）

Hive也支持在SELECT、WHERE和FROM等子句中使用子查询。

示例：在`SELECT`中使用子查询

sql 复制代码

SELECT id, name,
       (SELECT MAX(salary) FROM salary_table WHERE employee_id = employees.id) AS max_salary
FROM employees;

示例：在`WHERE`中使用子查询

sql 复制代码

SELECT * FROM employees
WHERE department_id IN (SELECT id FROM departments WHERE name = 'Engineering');

8. 用户定义函数（UDF）

Hive支持用户定义函数（UDF），允许你使用自定义的Java代码扩展Hive的功能。通过UDF可以处理一些标准SQL不支持的操作。

注册UDF

sql 复制代码

ADD JAR /path/to/udf.jar;
CREATE TEMPORARY FUNCTION my_udf AS 'com.example.MyUDF';

使用UDF

sql 复制代码

SELECT my_udf(column_name) FROM table_name;

9. 事务支持

Hive从0.13版本开始支持ACID（原子性、一致性、隔离性和持久性）事务，但仅适用于支持ORC格式的表。

创建支持事务的表

sql 复制代码

CREATE TABLE transaction_table (
    id INT,
    name STRING
) STORED AS ORC TBLPROPERTIES ('transactional'='true');

启用事务

sql 复制代码

SET hive.support.concurrency=true;
SET hive.enforce.bucketing=true;
SET hive.exec.dynamic.partition.mode=nonstrict;

10. 数据导入与导出

Hive支持将数据导入和导出到各种存储系统中，例如HDFS、Local File System、Amazon S3等。

从本地文件系统导入数据

hyxx.txt数据集为随机生成，内容为：

sql 复制代码

会员卡号	                        会员等级	会员来源	  注册时间	    所属店铺编码                      性别	      生日        年齡	生命级别
BL6099033963550303769	黄金会员	线下扫码	2019-03-31	DPXX07				女	1975-04-04	43	活跃
BL6099033963450303763	黄金会员	线下扫码	2019-03-31	DPXX07				女	1982-04-02	36	活跃
BL6099033963464003767	白银会员	电商入口	2019-03-31	DPS00X				女	1988-08-13	30	沉睡
BL6099033963460503766	黄金会员	线下扫码	2019-03-31	DPXX07				女	1993-11-24	25	活跃
BL6099033963660603765	白银会员	电商入口	2019-03-31	DPS00X				女	1993-03-20	26	沉睡
BL6099033963659903764	白银会员	电商入口	2019-03-31	DPS00X				女	1985-04-19	33	沉睡
BL6099033963636603763	黄金会员	线下扫码	2019-03-31	DPXX07				女	1976-02-26	43	活跃
BL6099033963696903766	白银会员	电商入口	2019-03-31	DPS00X				女	2000-02-18	19	沉睡
BL6099033963970603760	白银会员	电商入口	2019-03-31	DPS00X				女	1992-10-20	26	沉睡
BL6099033963950603759	白银会员	电商入口	2019-03-31	DPS00X				男	1984-10-30	34	沉睡
BL6099033963039603755	黄金会员	线下扫码	2019-03-31	DPXX07				女	2000-02-07	19	活跃
BL6099033963040903756	白银会员	线下扫码	2019-03-31	DPX780	        	女	1984-05-09	34	沉睡
BL6099033963034603759	白银会员	线下扫码	2019-03-31	DPXX07				女	1978-11-25	40	活跃
BL6099033963033403750	白银会员	线下扫码	2019-03-31	DPJ0X3				女	1970-01-01	49	沉睡
BL6099033963099603743	黄金会员	线下扫码	2019-03-31	DPXX07				女	1984-08-10	34	活跃
BL6099033966590603746	白银会员	线下扫码	2019-03-31	DPXX07				女	1978-04-22	40	活跃
BL6099033966569403743	白银会员	电商入口	2019-03-31	DPS00X				女	1983-11-29	35	沉睡
BL6099033966555303746	白银会员	线下扫码	2019-03-31	DPXX07				女	1980-04-06	38	活跃
BL6099033966534503739	黄金会员	线下扫码	2019-03-31	DPXX07				女	1979-09-06	39	活跃
BL6099033966599303735	白银会员	电商入口	2019-03-31	DPS00X				女	1983-03-07	36	沉睡
BL6099033966470003736	白银会员	线下扫码	2019-03-31	DPXX07				女	1990-09-22	28	活跃
BL6099033966456903739	白银会员	电商入口	2019-03-31	DPS00X				女	1985-04-04	33	沉睡
BL6099033966459903730	白银会员	电商入口	2019-03-31	DPS00X				女	1991-08-24	27	沉睡
BL6099033966459503769	白银会员	电商入口	2019-03-31	DPS00X				女	1969-03-09	50	沉睡
BL6099033966445003763	白银会员	电商入口	2019-03-31	DPS00X				女	1995-04-06	23	沉睡
BL6099033966444503767	白银会员	线下扫码	2019-03-31	DPXX07				女	1979-09-02	39	活跃
BL6099033966466903766	黄金会员	线下扫码	2019-03-31	DPXX07				女	1974-01-01	45	活跃

将txt数据文件上传到root目录

如果没有对应的表，需要创建对应的hyxx_table表

sql 复制代码

CREATE TABLE hyxx_table (
     member_card_number STRING,      -- 会员卡号
     member_level STRING,            -- 会员等级
     member_source STRING,           -- 会员来源
     registration_time TIMESTAMP,    -- 注册时间
     store_code STRING,              -- 所属店铺编码
     gender STRING,                  -- 性别 (建议使用 'M' 或 'F' 表示性别)
     birthday DATE,                  -- 生日
     age INT,                        -- 年龄
     life_level STRING               -- 生命级别
) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'           -- 假设字段使用制表符分隔
STORED AS TEXTFILE;

字段说明

member_card_number: 会员卡号，使用STRING类型，可以存储各种字符组合。

member_level: 会员等级，使用STRING类型，可存储如"普通会员"、"VIP"等。

member_source: 会员来源，STRING类型，例如"线上"、"线下"等。

registration_time: 注册时间，TIMESTAMP类型，存储年-月-日时:分:秒。

store_code: 所属店铺编码，STRING类型，用于存储各店铺的唯一标识。

gender: 性别，使用STRING类型，通常用"M"或"F"标识。

birthday: 生日，使用DATE类型。

age: 年龄，使用INT类型。

life_level: 生命级别，使用STRING类型。

创建完成后，可以使用LOAD DATA命令将数据加载到表中。

查看表中字段

然后从本地文件系统/root目录下导入数据

sql 复制代码

LOAD DATA LOCAL INPATH '/root/hyxx.txt' INTO TABLE hyxx_table;

查看字段下的数据

在Hive中，可以使用SELECT语句来查看特定字段的数据。假设要查看hyxx_table表中某些字段的内容，例如查看会员卡号、会员等级和注册时间，可以使用以下SQL语句：

sql 复制代码

SELECT member_card_number, member_level, registration_time
FROM hyxx_table
LIMIT 10;

解释

SELECT: 用于选择指定的字段。

member_card_number, member_level, registration_time: 这些是要查看的字段名称。

LIMIT 10: 限制返回的记录数为10条，以避免查询过多数据（可以根据需要调整或去掉此部分）。
示例

如果需要查看全部字段的数据，可以用*表示：

sql 复制代码

SELECT *
FROM hyxx_table
LIMIT 10;

以上语句会返回hyxx_table表的前10条记录，包含所有字段的信息。

如果需要列出全部记录，不用加上数值即可。

sql 复制代码

SELECT *
FROM hyxx_table
LIMIT ;

从HDFS导入数据

先上传hyxx.txt文件到hdfs中。

sql 复制代码

hadoop fs -put hyxx.txt /hive_tables/

上传完成，查看

hyxx_table2表跟hyxx_table表中的字段内容相同，仅更名

sql 复制代码

LOAD DATA INPATH '/hive_tables/hyxx.txt' INTO TABLE hyxx_table2;

导入hive后hdfs中的数据文件会消失，属于正常现象，查看导入的表的字段下的数据，存在即可

查看表下字段中的数据

查看表中字段

查看字段下的数据

正常

导出数据到本地文件系统

sql 复制代码

INSERT OVERWRITE LOCAL DIRECTORY '/root/hive_data'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
SELECT * FROM hyxx_table2;

执行日志：

sql 复制代码

hive> INSERT OVERWRITE LOCAL DIRECTORY '/root/hive_data'
    > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
    > SELECT * FROM hyxx_table2;
2024-11-06T01:41:59,210 INFO [main] org.apache.hadoop.hive.conf.HiveConf - Using the default value passed in for log id: dba1e2f5-60c0-4488-8b37-57d7d6c1c38c
2024-11-06T01:41:59,211 INFO [main] org.apache.hadoop.hive.ql.session.SessionState - Updating thread name to dba1e2f5-60c0-4488-8b37-57d7d6c1c38c main
2024-11-06T01:42:02,734 INFO [dba1e2f5-60c0-4488-8b37-57d7d6c1c38c main] org.apache.hadoop.hive.common.FileUtils - Creating directory if it doesn't exist: hdfs://node1:8020/root/hive_data/.hive-staging_hive_2024-11-06_01-41-59_264_4655809944502720066-1
Query ID = root_20241106014159_a28aceb5-a14f-433a-9fe6-b79120211fd2
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
2024-11-06T01:42:05,017 INFO [dba1e2f5-60c0-4488-8b37-57d7d6c1c38c main] org.apache.hadoop.conf.Configuration.deprecation - mapred.submit.replication is deprecated. Instead, use mapreduce.client.submit.file.replication
2024-11-06T01:42:50,376 INFO [dba1e2f5-60c0-4488-8b37-57d7d6c1c38c main] org.apache.hadoop.conf.Configuration.deprecation - yarn.resourcemanager.system-metrics-publisher.enabled is deprecated. Instead, use yarn.system-metrics-publisher.enabled
2024-11-06T01:42:52,378 INFO [dba1e2f5-60c0-4488-8b37-57d7d6c1c38c main] org.apache.hadoop.conf.Configuration - resource-types.xml not found
Starting Job = job_1730818870875_0002, Tracking URL = http://node1:8088/proxy/application_1730818870875_0002/
Kill Command = /export/server/hadoop-3.3.0/bin/mapred job  -kill job_1730818870875_0002
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2024-11-06 01:43:33,360 Stage-1 map = 0%,  reduce = 0%
2024-11-06 01:44:32,141 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 19.91 sec
MapReduce Total cumulative CPU time: 19 seconds 910 msec
Ended Job = job_1730818870875_0002
Moving data to local directory /root/hive_data
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1   Cumulative CPU: 19.91 sec   HDFS Read: 8770 HDFS Write: 2035 SUCCESS
Total MapReduce CPU Time Spent: 19 seconds 910 msec
OK
Time taken: 155.654 seconds
2024-11-06T01:44:34,888 INFO [dba1e2f5-60c0-4488-8b37-57d7d6c1c38c main] org.apache.hadoop.hive.conf.HiveConf - Using the default value passed in for log id: dba1e2f5-60c0-4488-8b37-57d7d6c1c38c
2024-11-06T01:44:34,889 INFO [dba1e2f5-60c0-4488-8b37-57d7d6c1c38c main] org.apache.hadoop.hive.ql.session.SessionState - Resetting thread name to  main
hive>

查看本地目录

导出数据到本地文件系统完成。

Hive的进阶操作包括分区、桶、视图、外部表、窗口函数、JOIN、子查询、UDF、事务支持以及数据导入导出等。这些操作可以帮助你在大数据环境中高效处理复杂的数据分析任务。通过灵活运用这些功能，你可以显著提高查询性能并简化数据处理工作。

Apache-Hive数据库使用学习

前期准备

参考博客：

Hadoop

Mysql

Apache-Hive

其他组件

一，基础操作

1，查看/创建/删除hive中的数据库

（1）查看hive中有多少个数据库

（2）在hive中创建一个数据库

（3）删除数据库

2，查看/创建/删除数据库中的表

(1)进入/使用test数据库

(2)查看test数据库中所有的表

(3)创建测试表test_table2

(4)删除测试表test_table2

3，查看/增加/删除表中字段

(1)查看表结构

(2)增加表中数据

(3)修改表中字段。

(4)删除表中字段

增删改的注意事项

(5)查看表中字段下的数据

列出全部字段及记录

列出表中所有字段和前10条记录

列出特定字段的前10条记录

二，进阶操作

1. 分区（Partition）管理

创建分区表

添加分区

查询分区

删除分区

2. 桶（Bucketing）管理

创建桶表

查询桶表

3. 视图（View）

创建视图

查询视图

删除视图

4. 外部表（External Table）

创建外部表

查看外部表

查看表结构/细节

删除外部表

5. 窗口函数（Window Functions）

示例：使用ROW_NUMBER()对每个分组进行排序

6. JOIN操作

示例：内连接（INNER JOIN）

示例：左连接（LEFT JOIN）

7. 子查询（Subqueries）

示例：在SELECT中使用子查询

示例：在WHERE中使用子查询

8. 用户定义函数（UDF）

注册UDF

使用UDF

9. 事务支持

创建支持事务的表

启用事务

10. 数据导入与导出

从本地文件系统导入数据

从HDFS导入数据

导出数据到本地文件系统

示例：使用`ROW_NUMBER()`对每个分组进行排序

示例：在`SELECT`中使用子查询

示例：在`WHERE`中使用子查询