Hive & Presto SQL 查询优化指南

在大数据处理领域，Hive 和 Presto 是两种常见的 SQL 查询引擎，分别适用于批量处理（Hive）和交互式查询（Presto）。然而，在使用它们时，SQL 查询可能会遇到性能瓶颈，例如查询慢、资源消耗高等问题。本文将介绍 Hive 和 Presto 查询的常见问题，并提供优化方案。

1. Hive 查询常见问题与优化

1.1 全表扫描问题

问题描述

如果 SQL 查询未使用分区列作为过滤条件，Hive 可能会扫描整个表，导致查询效率低下。

优化方案

启用分区裁剪（Partition Pruning）
- 示例：未优化 SQL（会扫描所有数据）
  复制代码
```
SELECT * FROM sales WHERE year = 2024;
```
- 优化后 SQL（使用分区）
  复制代码
```
SELECT * FROM sales WHERE year = '2024';
```
- 最佳实践 ：确保 year 是 PARTITIONED BY 的列，并且查询时明确指定分区值。

1.2 JOIN 造成的性能问题

问题描述

Hive 的 JOIN 操作默认是 Shuffle Join，可能导致大量数据传输，影响查询性能。

优化方案

使用 Map Join（适用于小表 JOIN 大表）

复制代码

SET hive.auto.convert.join=true;
SELECT /*+ MAPJOIN(small_table) */ * FROM large_table lt 
JOIN small_table st ON lt.id = st.id;

使用分桶（Bucket Join，适用于大表 JOIN 大表）

复制代码

CREATE TABLE large_table (id INT, name STRING) CLUSTERED BY (id) INTO 10 BUCKETS;
CREATE TABLE small_table (id INT, type STRING) CLUSTERED BY (id) INTO 10 BUCKETS;

SET hive.optimize.bucketmapjoin=true;
SELECT * FROM large_table lt JOIN small_table st ON lt.id = st.id;

1.3 ORC / Parquet 文件格式优化

问题描述

默认的 TextFile/CSV 读取效率低，影响查询速度。

优化方案

推荐使用 ORC / Parquet 格式
复制代码
```
CREATE TABLE sales_orc (id INT, amount DOUBLE) 
STORED AS ORC;
```
- ORC 支持 Predicate Pushdown，减少数据扫描量
- Parquet 适用于 Presto / Spark，适合复杂查询

1.4 执行计划分析优化

使用 EXPLAIN****分析查询执行计划
复制代码
```
EXPLAIN SELECT * FROM sales WHERE year = '2024';
```
启用 hive.exec.orc.split.strategy=BI****进行 ORC 文件优化
复制代码
```
SET hive.exec.orc.split.strategy=BI;
```
启用 hive.exec.orc.skip.corrupt.data=true****以跳过损坏数据
复制代码
```
SET hive.exec.orc.skip.corrupt.data=true;
```

2. Presto 查询常见问题与优化

2.1 大表 JOIN 造成的性能问题

问题描述

Presto 默认采用 Shuffle Join，可能导致数据倾斜。

优化方案

使用 Broadcast Join（适用于小表 JOIN 大表）

复制代码

SELECT /*+ BROADCAST(small_table) */ * 
FROM large_table lt 
JOIN small_table st ON lt.id = st.id;

使用 Dynamic Filtering（Presto 特性，自动优化 JOIN 过程）

复制代码

SELECT * FROM fact_table f JOIN dim_table d 
ON f.id = d.id WHERE d.type = 'active';

2.2 ORC / Parquet 读取优化

优化方案

创建 Parquet 表（适用于 Presto）

复制代码

CREATE TABLE sales_parquet (id INT, revenue DOUBLE) 
WITH (format = 'PARQUET');

启用查询缓存

复制代码

SET SESSION result_cache_enabled = true;

3. SQL 语法优化

**3.1 避免使用 COUNT(*) 统计大表**

优化方案

Hive 可改用 APPROX_COUNT_DISTINCT

复制代码

SELECT APPROX_COUNT_DISTINCT(user_id) FROM sales;

Presto 可使用 **count(column_name)**或 approx_distinct
复制代码
```
SELECT approx_distinct(user_id) FROM sales;
```

3.2 避免 GROUP BY 低效聚合

优化方案

减少 GROUP BY 维度

复制代码

SELECT category, SUM(amount) FROM sales GROUP BY category;

使用预聚合表减少计算量

复制代码

CREATE TABLE sales_summary AS
SELECT category, year, SUM(amount) AS total_amount FROM sales GROUP BY category, year;

避免数据倾斜，启用 Hive 处理
复制代码
```
SET hive.groupby.skewindata=true;
```

3.3 避免 SELECT *

优化方案

只选择需要的列
复制代码
```
SELECT id, name, amount FROM sales;
```

3.4 避免子查询嵌套过深

优化方案

使用 CTE（Common Table Expression）提高可读性和优化查询

复制代码

WITH filtered_sales AS (
    SELECT id, amount FROM sales WHERE amount > 1000
)
SELECT * FROM filtered_sales WHERE id > 10;

4. 总结

在实际查询时，可以结合 分区优化、文件格式优化、JOIN 策略优化、SQL 语法优化 等方式，提升 Hive 和 Presto 的 SQL 查询性能，减少查询延迟，提高资源利用率！🚀

Hive & Presto SQL 查询优化指南

1. Hive 查询常见问题与优化

1.1 全表扫描问题

问题描述

优化方案

1.2 JOIN 造成的性能问题

问题描述

优化方案

1.3 ORC / Parquet 文件格式优化

问题描述

优化方案

1.4 执行计划分析优化

2. Presto 查询常见问题与优化

2.1 大表 JOIN 造成的性能问题

问题描述

优化方案

2.2 ORC / Parquet 读取优化

优化方案

3. SQL 语法优化

3.1 避免使用 COUNT(*) 统计大表

优化方案

3.2 避免 GROUP BY 低效聚合

优化方案

**3.3 避免 SELECT ***

优化方案

3.4 避免子查询嵌套过深

优化方案

4. 总结

**3.1 避免使用 COUNT(*) 统计大表**

3.3 避免 SELECT *