Doris专题28-聚合多维分析

一、核心概念对比

ROLLUP(层级汇总)
  • 定义:生成层次化汇总,按指定列顺序从最细粒度逐步汇总到最高层。
  • 适用场景:需逐级汇总的场景,如按时间(年→月→日)、地理(国家→省→市)等维度。
  • 示例ROLLUP(YEAR(d_date), MONTH(d_date)) 会生成:
    • 年+月维度(如 2001 年 1 月)
    • 年仅维度(如 2001 年)
    • 总计(所有年份)
CUBE(全组合汇总)
  • 定义:生成所有可能的维度组合汇总,比 ROLLUP 更全面。
  • 适用场景:需分析所有维度组合的场景,如业务分析、市场调查。
  • 示例CUBE(YEAR(d_date), i_category) 会生成:
    • 年+品类(如 2001 年 Books)
    • 年仅(2001 年)
    • 品类仅(Books)
    • 总计
GROUPING SETS(自定义组合汇总)
  • 定义:指定特定维度组合进行汇总,比 ROLLUP/CUBE 更灵活。
  • 适用场景:仅需部分维度组合时,避免计算不必要的汇总,提升效率。
  • 示例GROUPING SETS((YEAR(d_date), i_category), (YEAR(d_date)), ()) 会生成:
    • 年+品类
    • 年仅
    • 总计

二、关键函数:解决 NULL 值歧义

GROUPING 函数
  • 作用:区分汇总行(由 ROLLUP/CUBE 生成)和原始数据中的 NULL 值。
  • 规则
    • 若列是汇总行(如 ROLLUP 生成的"年总计"),返回 1。
    • 若列是原始数据的 NULL 或普通值,返回 0。
  • 示例GROUPING(YEAR(d_date)) 可判断"年"列是否为汇总行。
GROUPING_ID 函数
  • 作用:用二进制位标识维度组合,更直观区分汇总层级。
  • 示例CUBE(a,b) 的 GROUPING_ID 对应:
    • a,b(明细行)→ 00 → ID=0
    • a(b 汇总)→ 01 → ID=1
    • b(a 汇总)→ 10 → ID=2
    • 总计 → 11 → ID=3

三、语法与示例

ROLLUP 语法
sql 复制代码
SELECT YEAR(d_date), MONTH(d_date), SUM(ss_net_paid)
FROM store_sales
GROUP BY ROLLUP(YEAR(d_date), MONTH(d_date));
  • 结果:包含年+月、年仅、总计三层汇总。
CUBE 语法
sql 复制代码
SELECT YEAR(d_date), i_category, SUM(ss_net_paid)
FROM store_sales
GROUP BY CUBE(YEAR(d_date), i_category);
  • 结果:包含年+品类、年仅、品类仅、总计四层汇总。
GROUPING SETS 语法
sql 复制代码
SELECT YEAR(d_date), i_category, SUM(ss_net_paid)
FROM store_sales
GROUP BY GROUPING SETS(
    (YEAR(d_date), i_category),  -- 年+品类
    (YEAR(d_date)),              -- 年仅
    ()                           -- 总计
);

四、应用场景总结

功能 适用场景 优势
ROLLUP 层级汇总(如时间、地理) 简洁,避免冗余汇总
CUBE 全维度组合分析(如市场调查) 覆盖所有可能组合
GROUPING SETS 自定义部分维度组合(如仅需年+品类) 灵活,减少计算资源消耗

五、注意事项

  • NULL 值处理:汇总行的 NULL 是"虚拟"的(由 ROLLUP/CUBE 生成),需用 GROUPING 函数区分。
  • 性能优化:若仅需部分维度组合,优先用 GROUPING SETS 而非 CUBE,避免计算不必要的汇总。
相关推荐
运气好好的9 小时前
Golang怎么用embed嵌入SQL文件_Golang如何将SQL迁移文件嵌入Go程序统一管理【技巧】
jvm·数据库·python
Elastic 中国社区官方博客9 小时前
在 Elasticsearch 中使用原生 PromQL 支持查询 Prometheus 指标
大数据·elasticsearch·搜索引擎·信息可视化·全文检索·prometheus
AC赳赳老秦10 小时前
政企内网落地:OpenClaw 离线环境深度适配方案,无外网场景下本地化模型对接与全功能使用
java·大数据·运维·python·自动化·deepseek·openclaw
念何架构之路10 小时前
MySql常见ORM
数据库·mysql
ITyunwei098710 小时前
团队管理与人才发展:如何打造一支“召之即来,来之能战”的铁军?
大数据·运维·人工智能
喜欢流萤吖~10 小时前
Elasticsearch集群:高可用与水平扩展的基石
大数据·elasticsearch·搜索引擎
xcLeigh10 小时前
KES数据库安全、权限、审计实战
数据库·安全·备份·权限·审计·ssl加密·密码策略
zjy2777711 小时前
c++如何实现日志文件的异步落盘功能_基于无锁队列方案【附代码】
jvm·数据库·python
河阿里11 小时前
SQL:深分页问题深度解析
数据库·sql
wang3zc11 小时前
JavaScript中函数声明位置对解析器预编译的影响
jvm·数据库·python