Doris专题28-聚合多维分析

一、核心概念对比

ROLLUP(层级汇总)
  • 定义:生成层次化汇总,按指定列顺序从最细粒度逐步汇总到最高层。
  • 适用场景:需逐级汇总的场景,如按时间(年→月→日)、地理(国家→省→市)等维度。
  • 示例ROLLUP(YEAR(d_date), MONTH(d_date)) 会生成:
    • 年+月维度(如 2001 年 1 月)
    • 年仅维度(如 2001 年)
    • 总计(所有年份)
CUBE(全组合汇总)
  • 定义:生成所有可能的维度组合汇总,比 ROLLUP 更全面。
  • 适用场景:需分析所有维度组合的场景,如业务分析、市场调查。
  • 示例CUBE(YEAR(d_date), i_category) 会生成:
    • 年+品类(如 2001 年 Books)
    • 年仅(2001 年)
    • 品类仅(Books)
    • 总计
GROUPING SETS(自定义组合汇总)
  • 定义:指定特定维度组合进行汇总,比 ROLLUP/CUBE 更灵活。
  • 适用场景:仅需部分维度组合时,避免计算不必要的汇总,提升效率。
  • 示例GROUPING SETS((YEAR(d_date), i_category), (YEAR(d_date)), ()) 会生成:
    • 年+品类
    • 年仅
    • 总计

二、关键函数:解决 NULL 值歧义

GROUPING 函数
  • 作用:区分汇总行(由 ROLLUP/CUBE 生成)和原始数据中的 NULL 值。
  • 规则
    • 若列是汇总行(如 ROLLUP 生成的"年总计"),返回 1。
    • 若列是原始数据的 NULL 或普通值,返回 0。
  • 示例GROUPING(YEAR(d_date)) 可判断"年"列是否为汇总行。
GROUPING_ID 函数
  • 作用:用二进制位标识维度组合,更直观区分汇总层级。
  • 示例CUBE(a,b) 的 GROUPING_ID 对应:
    • a,b(明细行)→ 00 → ID=0
    • a(b 汇总)→ 01 → ID=1
    • b(a 汇总)→ 10 → ID=2
    • 总计 → 11 → ID=3

三、语法与示例

ROLLUP 语法
sql 复制代码
SELECT YEAR(d_date), MONTH(d_date), SUM(ss_net_paid)
FROM store_sales
GROUP BY ROLLUP(YEAR(d_date), MONTH(d_date));
  • 结果:包含年+月、年仅、总计三层汇总。
CUBE 语法
sql 复制代码
SELECT YEAR(d_date), i_category, SUM(ss_net_paid)
FROM store_sales
GROUP BY CUBE(YEAR(d_date), i_category);
  • 结果:包含年+品类、年仅、品类仅、总计四层汇总。
GROUPING SETS 语法
sql 复制代码
SELECT YEAR(d_date), i_category, SUM(ss_net_paid)
FROM store_sales
GROUP BY GROUPING SETS(
    (YEAR(d_date), i_category),  -- 年+品类
    (YEAR(d_date)),              -- 年仅
    ()                           -- 总计
);

四、应用场景总结

功能 适用场景 优势
ROLLUP 层级汇总(如时间、地理) 简洁,避免冗余汇总
CUBE 全维度组合分析(如市场调查) 覆盖所有可能组合
GROUPING SETS 自定义部分维度组合(如仅需年+品类) 灵活,减少计算资源消耗

五、注意事项

  • NULL 值处理:汇总行的 NULL 是"虚拟"的(由 ROLLUP/CUBE 生成),需用 GROUPING 函数区分。
  • 性能优化:若仅需部分维度组合,优先用 GROUPING SETS 而非 CUBE,避免计算不必要的汇总。
相关推荐
qq_206901392 小时前
SQL中如何处理多维数据的查询:复合索引与SELECT编写
jvm·数据库·python
weixin_586061462 小时前
硬盘空间不足怎么装HTML工具_精简安装与外接存储方案【说明】
jvm·数据库·python
m0_678485452 小时前
Redis如何在应用启动时预热缓存数据
jvm·数据库·python
苏瞳儿7 小时前
java对数据库的增删改查
java·数据库·oracle
Greyson110 小时前
Layui表格如何使用第三方插件实现树形展示.txt
jvm·数据库·python
2401_8716965210 小时前
mysql行级锁失效的原因排查_检查查询条件与执行计划
jvm·数据库·python
Elastic 中国社区官方博客11 小时前
Elasticsearch:快速近似 ES|QL - 第一部分
大数据·运维·数据库·elasticsearch·搜索引擎·全文检索
Dontla11 小时前
高基数(High Cardinality)问题介绍(Prometheus、高基数字段、低基数字段)
前端·数据库·prometheus
a95114164211 小时前
CSS如何实现元素隐藏不占位_使用display-none完全移除
jvm·数据库·python