SQL优化剧场：当Hive/MaxCompute遇上数据倾斜的十二种剧情

1. 数据倾斜的幕后黑手们

数据倾斜就像一场精心编排的戏剧，每个角色都有其独特的破坏方式。在Hive和MaxCompute的世界里，这些"反派角色"常常让我们的SQL查询陷入泥潭。让我们先认识一下这些"重量级演员"：

小文件刺客：隐藏在文件系统中的杀手，用大量小文件拖慢Map阶段。它们会让某些Mapper实例处理的数据量远小于其他实例，造成资源浪费。

空值幽灵：JOIN操作中最常见的捣乱分子。当关联键中存在大量NULL值时，这些幽灵会聚集在同一个Reducer中，形成处理瓶颈。

热点键暴君：某些键值的出现频率远超其他键值，比如电商系统中某些热门商品的访问记录。这些暴君会垄断Reducer资源，让其他键值等待。

Count Distinct炸弹：当多个COUNT DISTINCT出现在同一查询中时，数据会呈指数级膨胀，最终在Reduce阶段引爆性能问题。

动态分区巫师：在动态分区插入数据时，如果不加控制，会产生大量小文件，就像巫师变出的无数分身，让存储系统不堪重负。

2. Map阶段的攻防战

2.1 小文件刺客的应对策略

当遇到大量小文件时，我们可以调整以下参数来合并小文件：

sql 复制代码

-- MaxCompute小文件合并参数
SET odps.sql.mapper.merge.limit.size=64;  -- 小于64MB的文件会被合并
SET odps.sql.mapper.split.size=256;      -- 每个Mapper处理的最大数据量

关键点：

合并小文件可以减少Mapper数量，避免资源浪费
但也不能让单个Mapper处理的数据量过大，需要平衡

2.2 数据分布不均的解决方案

如果数据在块中分布不均，可以使用DISTRIBUTE BY随机打散：

sql 复制代码

SELECT id, COUNT(*) cnt 
FROM (
  SELECT id, name
  FROM tbl
  DISTRIBUTE BY rand()  -- 随机分发数据
) 
GROUP BY id;

注意事项：

此方法会增加Shuffle开销
只应在数据分布严重不均时使用
使用后可能需要增加Reducer数量

3. JOIN舞台上的对决

3.1 空值幽灵的驱散术

处理JOIN中的NULL值，可以用随机值替换：

sql 复制代码

SELECT ... 
FROM a LEFT JOIN b 
ON COALESCE(a.id, rand()*9999) = COALESCE(b.id, rand()*9999)

原理：

将NULL替换为随机值，打散到不同Reducer
不影响结果，因为NULL与任何值JOIN都无意义

3.2 大表JOIN小表的魔法

使用MAPJOIN提示将小表广播：

sql 复制代码

-- MaxCompute中的MAPJOIN
SELECT /*+ MAPJOIN(b,c) */ 
  a.col1, b.col2, c.col3
FROM t0 a 
LEFT JOIN t1 b ON a.id = b.id
LEFT JOIN t2 c ON a.id = c.id;

-- 设置小表内存限制
SET odps.sql.mapjoin.memory.max=512;  -- 最大可设置2048MB

MAPJOIN特点：

小表加载到内存，避免Shuffle
只能用于小表JOIN大表
小表作为从表(右表)

3.3 大表JOIN大表的平衡术

对于大表JOIN大表的数据倾斜，可以使用SKEWJOIN：

sql 复制代码

-- 方法1：简单提示
SELECT /*+ SKEWJOIN(a) */ ... FROM t0 a JOIN t1 b ON a.id = b.id;

-- 方法2：指定倾斜列
SELECT /*+ SKEWJOIN(a(id,code)) */ ... FROM t0 a JOIN t1 b ON a.id = b.id AND a.code = b.code;

-- 方法3：精确指定倾斜值
SELECT /*+ SKEWJOIN(a(id,code)((1,'xxx'),(3,'yyy'))) */ ... 
FROM t0 a JOIN t1 b ON a.id = b.id AND a.code = b.code;

-- 调整热点键数量
SET odps.optimizer.skew.join.topk.num=20;

SKEWJOIN原理：

识别热点键
对热点数据使用MAPJOIN
对非热点数据使用普通JOIN
合并结果

4. Reduce阶段的性能陷阱

4.1 Count Distinct的优化之道

避免直接使用COUNT DISTINCT，改用两阶段聚合：

sql 复制代码

SELECT 
  group_id,
  app_id,
  SUM(CASE WHEN 7d_cnt>0 THEN 1 ELSE 0 END) AS 7d_uv,
  SUM(CASE WHEN 14d_cnt>0 THEN 1 ELSE 0 END) AS 14d_uv
FROM (
  SELECT 
    group_id, 
    app_id, 
    user_id,
    COUNT(CASE WHEN dt>='${7d_before}' THEN user_id ELSE NULL END) as 7d_cnt,
    COUNT(CASE WHEN dt>='${14d_before}' THEN user_id ELSE NULL END) as 14d_cnt
  FROM tbl
  WHERE dt>='${14d_before}'
  GROUP BY group_id, app_id, user_id
) a
GROUP BY group_id, app_id;

优化效果：

减少Shuffle数据量
避免数据膨胀
提升计算效率

4.2 动态分区的平衡术

动态分区可能导致小文件问题，可通过参数控制：

sql 复制代码

-- 关闭动态分区重分布(分区少时使用)
SET odps.sql.reshuffle.dynamicpt=false;

-- 动态分区写入示例
INSERT OVERWRITE TABLE target PARTITION(ds, hh)
SELECT col1, col2, ds, hh
FROM source;

选择策略：

分区多(>50)：保持reshuffle.dynamicpt=true(默认)
分区少(≤50)：设置reshuffle.dynamicpt=false

4.3 GroupBy倾斜的解决方案

启用GroupBy防倾斜参数：

sql 复制代码

SET odps.sql.groupby.skewindata=true;

工作原理：

第一阶段：按group key + 随机数分组，部分聚合
第二阶段：按group key分组，最终聚合

5. 参数调优宝典

5.1 Map阶段参数

sql 复制代码

-- 调整Mapper资源
SET odps.sql.mapper.cpu=100;       -- CPU数量(50-800)
SET odps.sql.mapper.memory=1024;   -- 内存(MB)

-- 控制Mapper数量
SET odps.sql.mapper.split.size=256;  -- 每个Mapper处理的数据量(MB)

5.2 Join阶段参数

sql 复制代码

-- 调整Joiner资源
SET odps.sql.joiner.cpu=100;
SET odps.sql.joiner.memory=1024;

-- 控制Joiner实例数
SET odps.sql.joiner.instances=-1;  -- -1表示自动, 0-2000

5.3 Reduce阶段参数

sql 复制代码

-- 调整Reducer资源
SET odps.sql.reducer.cpu=100;
SET odps.sql.reducer.memory=1024;

-- 控制Reducer数量
SET odps.sql.reducer.instances=500;  -- 根据数据量调整

调优经验：

日志中出现"dumps"关键词时需要增加内存
无倾斜但耗时长可增加并发数
资源设置过高可能导致任务排队

6. 实战工具箱

6.1 Logview分析指南

打开Logview找到运行时间最长的Stage
按Latency降序排列Instance
检查运行时间远大于平均的Instance
查看StdOut日志定位问题Key

关键指标：

Long-Tails实例：运行时间>平均2倍
数据倾斜：max时间 ≫ avg时间

6.2 动态过滤器技巧

sql 复制代码

-- 开启动态过滤器
SELECT /*+ DYNAMICFILTER(A, B) */ *
FROM (table1) A JOIN (table2) B ON A.a = B.b;

-- 开启动态分区裁剪
SET odps.optimizer.dynamic.filter.dpp.enable=true;

适用场景：

大表JOIN中小表
小表过滤性高
关联键是分区字段

7. 高级优化策略

7.1 Distributed MapJoin

对于大表JOIN中表(1GB-100GB)的场景：

sql 复制代码

-- 基本用法
SELECT /*+ DISTMAPJOIN(a(shard_count=5)) */ ...

-- 高级配置
SELECT /*+ DISTMAPJOIN(a(shard_count=5,replica_count=2)) */ ...

-- 混合使用
SELECT /*+ DISTMAPJOIN(a), MAPJOIN(b) */ ...

参数建议：

shard_count：按200-500MB/分片计算
replica_count：通常2-3，提高稳定性

7.2 TopN优化模式

对于ROW_NUMBER() OVER(PARTITION BY ... ORDER BY ...)场景：

sql 复制代码

-- 两阶段聚合方案
SELECT main_id, type
FROM (
  SELECT main_id, type,
    ROW_NUMBER() OVER(PARTITION BY main_id ORDER BY type DESC) rn
  FROM (
    SELECT main_id, type
    FROM (
      SELECT main_id, type,
        ROW_NUMBER() OVER(PARTITION BY main_id,src_pt ORDER BY type DESC) rn
      FROM (
        SELECT main_id, type, CEIL(10 * RAND()) AS src_pt
        FROM data_demo2
      )
    ) 
    WHERE rn <= 10
  )
)
WHERE rn <= 10;

优化思路：

增加随机列打散数据
第一阶段按main_id+随机数分组
第二阶段按main_id分组

8. 性能优化检查清单

Map阶段：
- 检查小文件问题
- 验证数据分布均匀性
- 调整split.size控制Mapper数量
Join阶段：
- 识别并处理NULL值
- 小表使用MAPJOIN
- 大表倾斜使用SKEWJOIN
- 考虑DISTRIBUTED MAPJOIN
Reduce阶段：
- 避免直接COUNT DISTINCT
- 动态分区控制小文件
- GroupBy启用skewindata
- TopN使用两阶段聚合
参数调优：
- 根据数据量设置实例数
- 出现dumps时增加内存
- 平衡资源使用与排队时间

9. 经典案例复盘

电商用户行为分析场景：

问题：用户访问日志JOIN商品表，某些热门商品导致倾斜
解决方案：
1. 使用SKEWJOIN提示指定热门商品ID
2. 对非热门商品使用普通JOIN
3. 合并两部分结果
效果：作业时间从2小时降至25分钟

金融交易统计场景：

问题：多维度COUNT DISTINCT计算导致数据膨胀
解决方案：
1. 改为两阶段聚合
2. 先按所有维度+用户ID分组
3. 再按业务维度聚合
效果：资源消耗减少70%，运行时间缩短60%

10. 避免的常见误区

过度使用随机数：
- 随机分发会增加Shuffle开销
- 只应在确实存在倾斜时使用
MAPJOIN滥用：
- 小表过大会导致OOM
- 注意内存限制(默认512MB)
参数盲目调大：
- 实例数不是越多越好
- 资源过高会导致任务排队
过早优化：
- 先确认存在性能问题
- 通过Logview验证倾斜

11. 未来优化方向

动态自适应优化：
- 自动识别倾斜模式
- 运行时动态调整执行计划
机器学习辅助：
- 预测数据分布
- 推荐最优参数配置
存储格式创新：
- 列存+索引加速
- 智能预聚合

12. 最佳实践总结

监控先行：通过Logview等工具准确定位问题阶段
对症下药：根据倾斜类型选择合适解决方案
渐进调优：从小规模测试开始验证效果
全局考量：平衡资源使用与执行效率
持续迭代：随着数据增长定期优化

数据倾斜优化没有银弹，需要根据具体场景灵活组合各种技术。掌握这些"角色"的特性和应对策略，你就能导演出一场高效的SQL查询大戏。