hive 不同维度聚合 grouping sets 使用详情

当结构数据表中,多列维度字段场景,
需要看不同维度聚合后的数据集时。

整体 demo sql

复制代码
select	
			if(CAST (GROUPING__ID AS INT) & 8=0, A, 'all') as A
			,if(CAST (GROUPING__ID AS INT) & 4=0, B, 'all') as B
			,C
			,D
from table_name
where dt = '${dt}'
group by
			A
			,B
			,C
			,D	
GROUPING SETS(
			(A)		
			,(B)
			,(C)	
			,(D)	
			
			,(A,B)	
			,(A,C)
			,(A,D)
			,(B,C)	
			,(B,D)	
			,(C,D)	
			
			,(A,B,C)	
			,(A,B,D)	
			,(A,C,D)	
			,(B,C,D)	
			
			,(A,B,C,D)	

下面进行sql逐步拆解分析(建议三个模块结合着看,会更快理解该语法)

1.第一模块

复制代码
select	
			-- A 的二进制为 8 ,如果 GROUPING__ID & 8=0 则取A值,否值为 all 
			if(CAST (GROUPING__ID AS INT) & 8=0, A, 'all') as A
			
			-- & 运算符使用
			--	0	1	1	1	二进制数对应的十进制数为	7
			--	1	0	0	0	二进制数对应的十进制数为	8
			--	演示 7 & 8(1表示 真 、0表示 假;真真得真,真假得假,假假得假)
			--	0	1	1	1
			--	1	0	0	0
			-----------------
			--	0	0	0	0	该二进制对应的十进制为0
			-- 则 7 & 8 =0
			
			
			-- A 的二进制为 4 ,如果 GROUPING__ID & 4=0 则取B值,否值为 all 
			,if(CAST (GROUPING__ID AS INT) & 4=0, B, 'all') as B
			,C
			,D

2.第二模块 (接着第一模块叙述)

复制代码
from table_name
where dt = '${dt}'
group by
			A
			,B
			,C
			,D
			
--	A	B	C	D	出现在 group by 后的位置
--	3	2	1	0	二进制排位(最先出现在group by 后的排二进制最高位)
--	8	4	2	1	二进制转化为十进制值

3.第三模块(接着第二模块叙述)

复制代码
GROUPING SETS(
			(A)		-- GROUPING__ID 值为 7
			,(B)	-- GROUPING__ID 值为 11
			,(C)	-- GROUPING__ID 值为 13
			,(D)	-- GROUPING__ID 值为 14
			
			,(A,B)	-- GROUPING__ID 值为 3
			,(A,C)	-- GROUPING__ID 值为 5
			,(A,D)	-- GROUPING__ID 值为 6
			,(B,C)	-- GROUPING__ID 值为 9
			,(B,D)	-- GROUPING__ID 值为 10
			,(C,D)	-- GROUPING__ID 值为 12
			
			,(A,B,C)	-- GROUPING__ID 值为 1
			,(A,B,D)	-- GROUPING__ID 值为 2
			,(A,C,D)	-- GROUPING__ID 值为 4
			,(B,C,D)	-- GROUPING__ID 值为 8
			
			,(A,B,C,D)	-- GROUPING__ID 值为 0 
)

附加测试语法

复制代码
-- 将二进制化转化为十进制
rpad(reverse(bin(cast(GROUPING__ID AS bigint))),16,'0') 
相关推荐
元媛媛3 小时前
数据仓库概要
数据仓库
cg.family3 小时前
Doris 数据仓库例子
数据仓库·doris
TDengine (老段)4 小时前
从 ETL 到 Agentic AI:工业数据管理变革与 TDengine IDMP 的治理之道
数据库·数据仓库·人工智能·物联网·时序数据库·etl·tdengine
BYSJMG9 小时前
计算机毕设大数据方向:基于Spark+Hadoop的餐饮外卖平台数据分析系统【源码+文档+调试】
大数据·hadoop·分布式·python·spark·django·课程设计
IT研究室17 小时前
大数据毕业设计选题推荐-基于大数据的宫颈癌风险因素分析与可视化系统-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
闯闯桑17 小时前
toDF(columns: _*) 语法
开发语言·前端·spark·scala·apache
镜舟科技18 小时前
告别 Hadoop,拥抱 StarRocks!政采云数据平台升级之路
大数据·starrocks·数据仓库·hadoop·存算分离
毕设源码-赖学姐18 小时前
【开题答辩全过程】以 基于Hadoop电商数据的可视化分析为例,包含答辩的问题和答案
大数据·hadoop·分布式
计算机毕设残哥19 小时前
HDFS存储农业大数据的秘密是什么?高级大豆数据分析与可视化系统架构设计思路
大数据·hadoop·python·hdfs·数据分析·spark·django
武子康20 小时前
大数据-90 Spark RDD容错机制:Checkpoint原理、场景与最佳实践 容错机制详解
大数据·后端·spark