Hive企业级调优[4]——HQL语法优化之分组聚合优化

HQL语法优化之分组聚合优化

优化说明

在 Hive 中,未经优化的分组聚合通常通过一个 MapReduce Job 实现。Map 端负责读取数据,并按分组字段进行分区,通过 Shuffle 将数据发送至 Reduce 端,在 Reduce 端完成最终的聚合运算。

Hive 对分组聚合的优化主要是为了减少 Shuffle 数据量,具体做法是采用 map-side 聚合。所谓 map-side 聚合,就是在 Map 端维护一个哈希表,利用它来完成部分聚合,然后将部分聚合的结果按照分组字段分区,发送至 Reduce 端以完成最终的聚合。这种方法能够有效地减少 Shuffle 的数据量,从而提高分组聚合运算的效率。

与 map-side 聚合相关的参数包括:

  • 启用 map-side 聚合

    sql 复制代码
    set hive.map.aggr=true;
  • 检测源表数据是否适合进行 map-side 聚合

    • 检测方法是:先对若干条数据进行 map-side 聚合,若聚合后的条数和聚合前的条数比值小于设定值,则认为该表适合进行 map-side 聚合;
    • 否则,认为该表数据不适合进行 map-side 聚合,后续数据便不再进行 map-side 聚合。
    sql 复制代码
    set hive.map.aggr.hash.min.reduction=0.5;
  • 用于检测源表是否适合 map-side 聚合的条数

    sql 复制代码
    set hive.groupby.mapaggr.checkinterval=100000;
  • map-side 聚合所用的哈希表占用 map task 堆内存的最大比例

    • 若超出此值,则会对哈希表进行一次 flush。
    sql 复制代码
    set hive.map.aggr.hash.force.flush.memory.threshold=0.9;
优化案例

1)示例 SQL:

sql 复制代码
hive (default)> 
select
    product_id,
    count(*)
from order_detail
group by product_id;

2)优化前 未经优化的分组聚合,执行计划如下图所示:(实际图形无法在此文本中展示,请参考执行计划输出结果)

3)优化思路 可以考虑开启 map-side 聚合,配置以下参数:

sql 复制代码
-- 启用 map-side 聚合,默认是 true
set hive.map.aggr=true;

-- 用于检测源表数据是否适合进行 map-side 聚合。检测的方法是:先对若干条数据进行 map-side 聚合,若聚合后的条数和聚合前的条数比值小于该值,则认为该表适合进行 map-side 聚合;否则,认为该表数据不适合进行 map-side 聚合,后续数据便不再进行 map-side 聚合。
set hive.map.aggr.hash.min.reduction=0.5;

-- 用于检测源表是否适合 map-side 聚合的条数。
set hive.groupby.mapaggr.checkinterval=100000;

-- map-side 聚合所用的哈希表,占用 map task 堆内存的最大比例,若超出该值,则会对哈希表进行一次 flush。
set hive.map.aggr.hash.force.flush.memory.threshold=0.9;

优化后的执行计划如图所示:(同样,实际图形需通过执行 EXPLAIN 命令获得)

相关推荐
汤姆yu几秒前
基于大数据的短视频流量数据分析与可视化
大数据·数据挖掘·数据分析
Ribou2 分钟前
Elasticsearch 9.2.0 三节点集群配置
大数据·elasticsearch·搜索引擎
啊吧怪不啊吧1 小时前
SQL之表的时间类内置函数详解
大数据·服务器·数据库·sql
TDengine (老段)2 小时前
TDengine 产品组件 taosX
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
字节数据平台3 小时前
火山引擎发布Data Agent新能力,推动用户洞察进入“智能3.0时代”
大数据·人工智能
TDengine (老段)3 小时前
TDengine 字符串函数 CHAR_LENGTH 用户手册
大数据·数据库·时序数据库·tdengine·涛思数据
TDengine (老段)3 小时前
TDengine 数学函数 CRC32 用户手册
java·大数据·数据库·sql·时序数据库·tdengine·1024程序员节
数智顾问3 小时前
(111页PPT)大型集团IT治理体系规划详细解决方案(附下载方式)
大数据·人工智能
geneculture4 小时前
官学商大跨界 · 产学研大综合:融智学新范式应用体系
大数据·人工智能·物联网·数据挖掘·哲学与科学统一性·信息融智学
唐兴通个人10 小时前
人工智能Deepseek医药AI培训师培训讲师唐兴通讲课课程纲要
大数据·人工智能