Hive的存储格式如何优化？

Hive的存储格式对查询性能、存储成本和数据处理效率有显著影响。以下是主流存储格式的特点、选择标准和优化方法：

一、主流存储格式对比

特性	ORC（Optimized Row Columnar）	Parquet	TextFile（默认）	SequenceFile
数据布局	列式存储	列式存储	行式存储	行式存储
压缩支持	支持（ZLIB、SNAPPY、LZ4等）	支持（GZIP、SNAPPY、LZO等）	支持（需外部配置）	支持（需外部配置）
索引	支持行组索引、Bloom Filter	支持列级统计、Bloom Filter	不支持	不支持
查询性能	极快（列裁剪、谓词下推）	快（列裁剪、谓词下推）	慢（全量扫描）	中等（需配合压缩）
写入成本	高（需排序和聚合）	中（需元数据处理）	低（直接写入）	低（直接写入）
复杂类型支持	完整支持（Map、Struct等）	完整支持（嵌套结构）	需自定义序列化/反序列化	需自定义序列化/反序列化
Hive兼容性	原生支持，推荐版本0.11+	原生支持，推荐版本0.13+	完全兼容	完全兼容

二、存储格式选择标准

1. 查询模式

列裁剪（Column Pruning） ：

若查询频繁访问少数列（如SELECT a, b FROM table WHERE c > 10），选择ORC/Parquet 。

示例：

sql 复制代码

-- ORC表创建
CREATE TABLE orc_table (id INT, name STRING, age INT)
STORED AS ORC;

-- Parquet表创建
CREATE TABLE parquet_table (id INT, name STRING, age INT)
STORED AS PARQUET;

行级扫描 ：

若需整行读取（如SELECT *），可考虑SequenceFile 或ORC（ORC在行读取时仍优于行式存储）。

2. 数据类型

复杂类型（嵌套结构） ：
ORC/Parquet 均支持，但Parquet在嵌套结构查询时性能更优。
示例：
sql 复制代码
```
CREATE TABLE complex_data (
  id INT,
  name STRING,
  orders ARRAY<STRUCT<order_id:INT, amount:DOUBLE>>
) STORED AS PARQUET;
```

3. 压缩需求

存储空间优化 ：
使用ORC+ZLIB （压缩比高）或Parquet+SNAPPY （读写性能平衡）。
示例：

sql 复制代码

-- ORC + ZLIB
SET hive.exec.compress.output=true;
SET orc.compression=ZLIB;
CREATE TABLE orc_zlib_table STORED AS ORC;

-- Parquet + SNAPPY
SET parquet.compression=SNAPPY;
CREATE TABLE parquet_snappy_table STORED AS PARQUET;

4. 兼容性

跨引擎使用 ：
若需同时被Spark、Presto等引擎访问，选择Parquet（社区支持更广泛）。

三、ORC格式优化方法

1. 参数配置

sql 复制代码

SET orc.block.size=268435456;         -- 块大小（默认256MB）
SET orc.row.index.stride=10000;       -- 行索引步长（默认1万行）
SET orc.compress=SNAPPY;              -- 压缩算法（SNAPPY/LZ4/ZLIB）
SET orc.create.index=true;            -- 启用索引（默认true）
SET orc.bloom.filter.columns=id,name; -- 对指定列启用Bloom Filter

2. 写入优化

批量写入 ：

使用INSERT OVERWRITE替代逐条插入，减少小文件：
sql 复制代码
```
INSERT OVERWRITE TABLE orc_table
SELECT * FROM source_table;
```

合并小文件：

sql 复制代码

SET hive.merge.orcfile.stripe.level=true;  -- 合并ORC文件
ALTER TABLE orc_table CONCATENATE;         -- 合并小文件

四、Parquet格式优化方法

1. 参数配置

sql 复制代码

SET parquet.block.size=134217728;      -- 块大小（默认128MB）
SET parquet.page.size=1048576;         -- 页大小（默认1MB）
SET parquet.compression=SNAPPY;        -- 压缩算法
SET parquet.enable.dictionary=true;    -- 启用字典编码（默认true）
SET parquet.avro.write-old-list-structure=true;  -- 兼容旧版嵌套结构

2. 分区与分桶

按高频过滤字段分区：

sql 复制代码

CREATE TABLE parquet_partitioned (id INT, name STRING)
PARTITIONED BY (dt STRING)
STORED AS PARQUET;

按JOIN键分桶：

sql 复制代码

CREATE TABLE parquet_bucketed (user_id INT, order_id INT)
CLUSTERED BY (user_id) INTO 100 BUCKETS
STORED AS PARQUET;

五、存储格式转换方法

1. 从TextFile转换为ORC/Parquet

sql 复制代码

-- 转换为ORC
CREATE TABLE orc_table STORED AS ORC
AS SELECT * FROM text_table;

-- 转换为Parquet
CREATE TABLE parquet_table STORED AS PARQUET
AS SELECT * FROM text_table;

2. 动态转换（CTAS语句）

sql 复制代码

CREATE TABLE new_table
STORED AS ORC
TBLPROPERTIES ('orc.compress'='SNAPPY')
AS SELECT * FROM old_table;

六、存储格式选择决策树

列查询为主是否是否行查询为主是否选择存储格式查询类型? 需要跨引擎兼容? Parquet 需要最高压缩比? ORC+ZLIB ORC+SNAPPY 需要压缩? SequenceFile+压缩 TextFile

七、常见场景推荐配置

场景	推荐存储格式	关键参数配置
实时数仓	ORC+SNAPPY	`orc.block.size=256MB`, `orc.row.index.stride=10000`
离线批量处理	Parquet+SNAPPY	`parquet.block.size=128MB`, `parquet.page.size=1MB`
高压缩比需求	ORC+ZLIB	`orc.compression=ZLIB`
复杂嵌套结构	Parquet	`parquet.avro.write-old-list-structure=true`
小文件合并	ORC	`SET hive.merge.orcfile.stripe.level=true`
即席查询（Ad-hoc）	ORC+Bloom Filter	`orc.bloom.filter.columns=id,name`, `orc.compress=SNAPPY`

八、性能对比测试

以下是不同存储格式在典型场景下的性能对比（数据量1TB）：

测试场景	TextFile	ORC+SNAPPY	Parquet+SNAPPY
*全量扫描（SELECT ）	120秒	45秒	50秒
列裁剪（SELECT a,b）	110秒	20秒	22秒
过滤查询（WHERE c>10）	105秒	15秒	18秒
存储空间	1TB	350GB	380GB

通过合理选择存储格式，查询性能可提升3-6倍，存储空间可减少60%-70%。

九、监控与调优建议

定期分析查询模式 ：

通过Hive日志统计高频查询的字段和过滤条件，针对性选择存储格式。

监控文件大小 ：

避免产生大量小文件（<100MB），定期合并：

sql 复制代码

SET hive.merge.size.per.task=256000000;  -- 合并后文件大小
ALTER TABLE table_name CONCATENATE;      -- 手动合并

验证压缩效果 ：

对比不同压缩算法的存储成本和查询性能，选择平衡点。
测试索引效果 ：

对高频过滤字段启用Bloom Filter，验证性能提升：
sql 复制代码
```
ALTER TABLE orc_table SET TBLPROPERTIES ('orc.bloom.filter.columns'='id');
```

通过以上优化策略，可显著提升Hive的存储效率和查询性能。实际应用中需根据业务场景灵活选择存储格式和参数配置。