Hive（15）中使用sum() over()实现累积求和和滑动求和

一个天蝎座白勺程序猿2024-01-30 20:34

三个常用的排序函数row_number(),rank()和dense_rank()。这三个函数需要配合开窗函数over()来实现排序功能。但over()的用法远不止于此，本文咱们来介绍如何实现累计求和和滑动求和。

三列数据，分别是员工的姓名、月份和销售额

功能：对每个员工的销售业绩的累积求和以及滑动求和（每个月计算其最近三个月的总销售业绩）

语法：
sum(需要求和的列) over(partition by 分组列 order by 排序列 asc/desc)

代码：

sql 复制代码

select
	 *,
	 sum(cnt) over(partition by name order by month) as total_cnt
from
	 default.salerinfo

结果：

累积求和还是比较简单的，滑动求和就需要用到over中的另一用法了：、

语法：
sum(需要求和的列) over(partition by 分组列 order by 排序列 range between ... and ...)

这里需要在over函数中使用range between and指定窗口的大小，向前使用preceding，向后使用following。如2 preceding and 1 following指定的窗口包括当前行、当前行前面两行以及当前行后面一行，总共4行。

注：下面代码中字段 month 必须是整数

1. 如在本例中，我们想要求每个月对应的最近三个月的业绩之和（包含本月在内），代码如下：

sql 复制代码

select
	 *,
	 sum(cnt) over(partition by name order by month range between 2 preceding and 0 following) as total_cnt
from
	 default.salerinfo

2. 如果不想写0 following，另一种更为合适的写法是使用current row：

sql 复制代码

select
	 *,
	 sum(cnt) over(partition by name order by month range between 2 preceding and current row) as total_cnt
from
	 default.salerinfo

1和2结果如下：

码字不易，喜欢请点赞，谢谢！！！😊

参考：
https://blog.csdn.net/abcdefg90876/article/details/105190396/
http://www.taodudu.cc/news/show-537160.html?action=onClick