hive里分区的种类有哪些

在 Apache Hive 中，分区（Partition）主要可以从存储位置 和管理方式两个维度进行分类。以下是详细的分类说明：

1. 按存储位置分类

这是最基础的物理分类：

内部表分区 (Managed/Internal Table Partition):
- 数据存储在 Hive 默认的仓库目录（hive.metastore.warehouse.dir）下对应的表目录中。
- 当删除表或分区时，Hive 会同时删除元数据和底层 HDFS/S3 上的数据文件。
外部表分区 (External Table Partition):
- 数据存储在用户自定义的任意路径下。
- 当删除表或分区时，Hive 只删除元数据，不会删除底层的数据文件。这通常用于共享数据或防止误删。

2. 按管理/加载方式分类（核心业务分类）

这是日常开发和运维中最常涉及的分类：

① 静态分区 (Static Partition)

定义： 在插入数据时，显式指定分区的值。
特点： 分区值是硬编码在 SQL 语句中的，不依赖于输入数据的内容。
适用场景： 明确知道数据属于哪个分区，或者需要手动归档历史数据。

示例：

sql 复制代码

INSERT INTO TABLE sales PARTITION (dt='2026-06-30', region='cn')
SELECT * FROM temp_sales WHERE dt='2026-06-30';

② 动态分区 (Dynamic Partition)

定义： 分区的值由 SELECT 查询结果中的数据列自动决定，无需手动指定具体值。
特点： Hive 会根据数据内容自动创建新分区并写入数据。需要开启相关配置（如 hive.exec.dynamic.partition=true）。
适用场景： ETL 过程中将大表按某个字段拆分到多个分区，且分区值较多或不确定。
注意： 动态分区列必须放在 SELECT 列表的最后面。

示例：

sql 复制代码

SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;
INSERT INTO TABLE sales PARTITION (dt, region)
SELECT id, amount, dt, region FROM temp_sales;

③ 混合分区 (Mixed/Hybrid Partition)

定义： 同时使用静态分区和动态分区。
规则： 静态分区必须排在动态分区前面。
适用场景： 已知部分高层级分区值，但低层级分区需要动态生成。

示例：

sql 复制代码

-- dt 是静态指定的，region 是根据数据动态生成的
INSERT INTO TABLE sales PARTITION (dt='2026-06-30', region)
SELECT id, amount, region FROM temp_sales WHERE dt='2026-06-30';

3. 特殊分区概念

除了上述常规分类，还有几个重要的相关概念：

概念	说明
多级分区	支持多个分区键（如 `dt` + `hour` + `region`），形成目录嵌套结构。注意分区层级不宜过深（一般不超过3级），否则会导致小文件过多和元数据压力。
虚拟分区 / 投影分区	数据文件中不包含分区列的值，分区值仅存在于元数据中。查询时 Hive 直接从路径解析分区值，避免读取文件内容，提升性能。
默认分区 (`__HIVE_DEFAULT_PARTITION__`)	当动态分区时，如果某条数据的分区列为 `NULL` 或空字符串，Hive 会自动将其归入此默认分区目录下。
事务表分区 (ACID)	在 Hive 3.x+ 中支持 ACID 事务的表也可以有分区，但其底层存储结构（delta/base 文件）与普通分区不同，支持 UPDATE/DELETE/MERGE 操作。

💡 最佳实践建议

优先使用动态分区进行 ETL，减少重复代码和维护成本。
严格控制分区数量：单个表的分区数建议控制在数万以内，过多会导致 Metastore 响应变慢、NameNode 内存压力增大。
避免过度分区：如果每个分区的数据量小于 256MB~1GB，应考虑减少分区粒度或使用分桶（Bucketing）代替。
生产环境慎用 nonstrict 模式 ：动态分区的 nonstrict 模式允许所有分区列都动态生成，容易因数据异常产生海量意外分区，建议使用 strict 模式（至少一个静态分区）作为安全阀。