hive窗口函数实现组内求和、累加、排序、计数

桃子是唯一的水果2024-09-26 19:01

问题描述：

group by实现的分组聚合函数与元数据表对比难以实现后续进一步的数据加工处理

窗口函数更容易实现在元数据表上打分组聚合的补丁

窗口函数的一般公式：

sql 复制代码

<窗口函数> over (partition by <用于分组的列名> order by <用于排序的列名> [rows between ?? and ???])

函数的位置可以放如下函数：

1.rank() ->如果有并列名次的行，会占用下一名次的位置。比如正常排名是1，2，3，4，但是现在前3名是并列的名次，结果是：1，1，1，4

2.dense_rank() ->如果有并列名次的行，不占用下一名次的位置。比如正常排名是1，2，3，4，但是现在前3名是并列的名次，结果是：1，1，1，2。

3.row_number() ->不考虑并列名次的情况。比如前3名是并列的名次，排名是正常的1，2，3，4。

4.lag(col,n,default_val)：获取往前第n行数据，col是列名，n是往上的行数，当第n行为null的时候取default_val

5.LEAD(col,n, default_val)：往后第n行数据，col是列名，n是往下的行数，当第n行为null的时候取default_val

6.聚合函数(sum求和，平均、计数、最大最小值)作为窗口函数，可以在每一行的数据里直观的看到，截止到本行数据，统计数据是多少（最大值、最小值等）。同时可以看出每一行数据，对整体统计数据的影响。

自行体会，真嘟很好用

对比python也不算差，之后会上实际案例