Hive SQL优化：分区表+分桶表提升查询效率

Hive中分区表和分桶表通过"目录划分"和"数据哈希分布"优化查询，结合使用可实现双重数据剪枝。

一、分区表：按业务维度拆分数据

原理

分区表将数据按分区字段存储在HDFS不同目录（如按日期分区/day=20231001），查询时通过WHERE子句指定分区，避免全表扫描。

使用方法

创建分区表（以日期分区为例）：
复制代码
```
sql
```
CREATE TABLE order_info ( order_no STRING, name STRING, order_amt DOUBLE ) PARTITIONED BY (day STRING) -- 分区字段（伪列，需指定类型） ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
加载数据：
- 静态分区 ：手动指定分区值
  复制代码
```
sql
```
  LOAD DATA INPATH '/data/order_20231001.txt' INTO TABLE order_info PARTITION (day='20231001');
- 动态分区 ：从查询结果推断分区值
  复制代码
```
sql
```
  SET hive.exec.dynamic.partition.mode = nonstrict; -- 开启动态分区 INSERT INTO order_info PARTITION (day) SELECT order_no, name, order_amt, day FROM temp_table; -- day为查询结果中的列
查询分区数据：
复制代码
```
sql
```
SELECT * FROM order_info WHERE day = '20231001'; -- 仅扫描/day=20231001目录

二、分桶表：按哈希均匀分布数据

原理

分桶表根据分桶字段的哈希值将数据分配到固定数量的文件（桶）中，解决数据倾斜，加速JOIN和采样查询。

使用方法

创建分桶表（按订单号分4桶）：
复制代码
```
sql
```
CREATE TABLE bucketed_order ( order_no STRING, name STRING, order_amt DOUBLE ) CLUSTERED BY (order_no) INTO 4 BUCKETS -- 分桶字段为表内真实字段 ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
加载数据（需启用分桶强制模式）：
复制代码
```
sql
```
SET hive.enforce.bucketing = true; -- 自动按分桶数分配数据 INSERT OVERWRITE TABLE bucketed_order SELECT order_no, name, order_amt FROM order_info;
优化JOIN查询 ：若两表按相同字段分桶，且小表桶数是大表的整数倍，可启用BucketMapJoin：
复制代码
```
sql
```
SET hive.optimize.bucketmapjoin = true; -- Map阶段直接JOIN，避免Shuffle SELECT a.order_no, b.user_name FROM bucketed_order a JOIN bucketed_user b ON a.order_no = b.order_no;

三、分区与分桶结合使用

场景：用户行为数据（按日期分区，用户ID分桶）

复制代码

sql

CREATE TABLE user_behavior ( user_id BIGINT, item_id BIGINT, behavior_type INT ) PARTITIONED BY (dt STRING) -- 按日期分区（目录划分） CLUSTERED BY (user_id) INTO 32 BUCKETS; -- 每个分区内按用户ID分32桶（文件划分）

优势：先按dt过滤分区，再按user_id分桶精确定位数据，实现"分区剪枝+分桶剪枝"双重优化。